Szkolenie Projektowanie platformy Big Data z użyciem narzędzi z rodziny Apache
Poziom
ŚredniozaawansowanyCzas
24h / 3 dniTermin
IndywidualnieCena
IndywidualnieSzkolenie Projektowanie platformy Big Data z użyciem narzędzi z rodziny Apache
Szkolenie „Projektowanie platformy Big Data z użyciem narzędzi z rodziny Apache” to praktyczne, 3 dniowe warsztaty, podczas których uczestnicy poznają nowoczesne metody budowy skalowalnych i efektywnych platform Big Data. Program oparty jest na zestawie popularnych i otwartych narzędzi Apache, takich jak Apache Hadoop, Spark, Kafka, NiFi, Flink, Iceberg czy Airflow, dzięki czemu kurs pozwala nie tylko zrozumieć teoretyczne podstawy architektury, ale także zdobyć umiejętności praktyczne w projektowaniu, implementacji i zarządzaniu kompleksowymi systemami analitycznymi. Szkolenie łączy 80% praktyki z 20% wiedzy teoretycznej, co umożliwia szybkie zdobycie kompetencji do pracy z dużymi wolumenami danych w środowiskach produkcyjnych.
Specjalistów IT, architektów dużych danych i inżynierów danych chcących zaprojektować nowoczesne, skalowalne platformy Big Data
DevOps i administratorów odpowiedzialnych za wdrożenie i zarządzanie infrastrukturą Hadoop/Spark/Kafka
Analityków i inżynierów danych, którzy pragną zrozumieć architekturę i narzędzia Apache do przetwarzania i analizy danych
Osób planujących rozbudowę istniejących rozwiązań lub rozpoczęcie nowych projektów Big Data
Projektować i implementować potoki danych do przetwarzania wsadowego i strumieniowego.
Poznasz zasady budowy nowoczesnej, skalowalnej architektury Big Data w oparciu o narzędzia Apache.
Zdobędziesz umiejętności konfiguracji i zarządzania systemami Hadoop, Kafka, NiFi, Spark oraz Flink.
Opanujesz techniki zarządzania metadanymi, linią pochodzenia danych oraz automatyzacją workflow.
Poznasz dobre praktyki wdrożeniowe oraz sposoby optymalizacji i monitoringu platform Big Data.
Wymagania:
- Podstawowa znajomość programowania obiektowego w Java lub Python
- Znajomość podstaw Big Data i/lub Hadoop będzie dodatkowym atutem
Program szkolenia
Dzień 1: Fundamenty architektury Big Data i narzędzia Apache
Moduł 1: Wprowadzenie do architektury Big Data
- Podstawowe pojęcia i warstwy architektury Big Data: dane, przetwarzanie, zarządzanie, analiza.
- Modele architektury: Data Lake, Lambda, Kappa i Data Lakehouse.
- Omówienie kryteriów projektowania: typ danych, skalowalność, charakterystyka batch i stream processing.
- Przegląd sposobów przetwarzania danych: batch vs stream.
Moduł 2: Apache Hadoop i HDFS
- Architektura HDFS – rola NameNode i DataNode, rozproszony system plików.
- Przetwarzanie wsadowe z MapReduce – podstawy i zastosowania.
- Administracja i monitorowanie klastra Hadoop.
Moduł 3: Podstawy programowania w Python w kontekście Big Data
- Zalety funkcjonalnego podejścia i porównanie Pythona z Javą.
- Elementy języka Python wykorzystywane przy przetwarzaniu danych: praca z DataFrame, funkcje lambda, komprehensje, map, filter.
- Ćwiczenia praktyczne: proste przetwarzanie danych, integracja z narzędziami Big Data (np. PySpark).
Dzień 2: Narzędzia do przetwarzania i integracji danych
Moduł 4: Strumieniowanie i kolejki – Apache Kafka i Apache NiFi
- Apache Kafka: architektura, producent, konsument, partycje, replikacja.
- Apache NiFi: zarządzanie przepływami danych – integracja źródeł i odbiorników.
- Praktyczne ćwiczenia: tworzenie przepływów danych i monitorowanie.
Moduł 5: Analiza danych w czasie rzeczywistym i wsadowa – Apache Spark i Flink
- Spark: architektura, RDD, DataFrame, Spark SQL.
- Flink: zastosowania do stream processing, okna czasowe, zarządzanie stanem.
- Projektowanie zadań batch i streamingowych, optymalizacja i tuning, Catalyst.
- Integracja z Apache Hadoop i deployment aplikacji.
Dzień 3 (opcjonalnie): Przechowywanie danych, zarządzanie workflow i governance
Moduł 6: Zarządzanie danymi i metadanymi – Apache Iceberg, Apache Atlas oraz Apache Druid
- Apache Iceberg – format tabel skalowalnych, wsparcie ACID, optymalizacja zapytań.
- Apache Atlas – metadane, governance danych, śledzenie linii pochodzenia danych.
- Apache Druid – Architektura i komponenty Druid, indeksowanie danych. Zarządzanie danymi w czasie rzeczywistym i batch.
Moduł 7: Automatyzacja i orchestracja – Apache Airflow i CI/CD dla Big Data
- Projektowanie workflow danych i zarządzanie zależnościami z Airflow.
- Praktyczne aspekty implementacji potoków danych oraz automatyzacji przetwarzania.
- Integracja z narzędziami CI/CD oraz zarządzanie środowiskami produkcyjnymi.
- Automatyzacja i orkiestracja procesów data pipeline.
- Definiowanie DAG, praca z taskami w Python i Bash.