Szkolenie Podstawy Big Data
Poziom
PodstawowyCzas
16h / 2 dniTermin
IndywidualnieCena
IndywidualnieSzkolenie z Podstaw Big Data
Szkolenie „Podstawy Big Data” to intensywny kurs zaprojektowany, aby wprowadzić uczestników w świat analizy dużych zbiorów danych. Skupiając się na praktycznym zastosowaniu technologii Big Data, kurs ten oferuje 80% zajęć w formie warsztatów i 20% teorii, zapewniając solidne podstawy i realne umiejętności niezbędne do pracy z dużymi zbiorami danych.
Dla kogo jest szkolenie z Podstaw Big Data?
Szkolenie jest skierowane do osób, które chcą rozpocząć swoją przygodę z Big Data, analityków danych, programistów oraz wszystkich zainteresowanych analizą i przetwarzaniem dużych zbiorów danych. Zalecana jest podstawowa znajomość SQL oraz ogólne rozumienie pracy z danymi (formaty, typy danych, pliki); doświadczenie z Pythonem będzie pomocne w części warsztatowej, ale nie jest wymagane do realizacji podstawowych zadań.
Czego nauczysz się na szkoleniu Podstawy Big Data?
- Fundamentów Big Data i ekosystemu technologii – zrozumiesz pojęcia, typowe architektury (data lake/lakehouse) oraz kompromisy związane ze skalowaniem, kosztem i wydajnością.
- Praktyki przetwarzania danych – opanujesz import, wstępne czyszczenie i transformacje danych oraz proste przetwarzanie w Apache Spark, w tym podstawy walidacji jakości wyników.
Program szkolenia
Dzień 1: Wprowadzenie do Big Data
- Teoria: Podstawy Big Data i kontekst zastosowań (cechy danych, przypadki użycia, koszty)
- Podstawowe definicje i koncepcje Big Data (batch/streaming, data lake/lakehouse, partycjonowanie)
- Przegląd narzędzi i technologii używanych w Big Data (Hadoop ecosystem, Spark, storage, formaty kolumnowe)
- Warsztaty: Praca z danymi (źródła, formaty, schemat, kontrola jakości)
- Import danych z różnych źródeł (pliki, bazy danych, API, obiektowe storage)
- Wstępne przetwarzanie i czyszczenie danych (typy, braki danych, transformacje, walidacja reguł)
Dzień 2: Analiza i Przetwarzanie Danych
- Teoria: Metody analizy dużych zbiorów danych (przetwarzanie rozproszone, partycje, shuffle)
- Techniki redukcji wymiarowości i agregacji danych (agregacje, okna, próbkowanie)
- Podstawy analizy statystycznej i eksploracyjnej danych (profilowanie, rozkłady, anomalia)
- Warsztaty: Hadoop i Spark w praktyce (HDFS/YARN, Spark SQL, DataFrame)
- Konfiguracja środowiska pracy (tryb lokalny, Docker, połączenie z klastrem, zasoby)
- Proste aplikacje przetwarzania danych (transformacje i agregacje w Spark, zapis wyników, parametry uruchomienia)