Projektowanie platformy Big Data z użyciem narzędzi z rodziny Apache

Poziom

Średniozaawansowany

Czas

24h / 3 dni

Termin

Indywidualnie

Cena

Indywidualnie

Szkolenie Projektowanie platformy Big Data z użyciem narzędzi z rodziny Apache

Szkolenie „Projektowanie platformy Big Data z użyciem narzędzi z rodziny Apache” to praktyczne, 3 dniowe warsztaty, podczas których uczestnicy poznają nowoczesne metody budowy skalowalnych i efektywnych platform Big Data. Program oparty jest na zestawie popularnych i otwartych narzędzi Apache, takich jak Apache Hadoop, Spark, Kafka, NiFi, Flink, Iceberg czy Airflow, dzięki czemu kurs pozwala nie tylko zrozumieć teoretyczne podstawy architektury, ale także zdobyć umiejętności praktyczne w projektowaniu, implementacji i zarządzaniu kompleksowymi systemami analitycznymi. Szkolenie łączy 80% praktyki z 20% wiedzy teoretycznej, co umożliwia szybkie zdobycie kompetencji do pracy z dużymi wolumenami danych w środowiskach produkcyjnych.

Dla kogo jest to szkolenie?

Specjalistów IT, architektów dużych danych i inżynierów danych chcących zaprojektować nowoczesne, skalowalne platformy Big Data
DevOps i administratorów odpowiedzialnych za wdrożenie i zarządzanie infrastrukturą Hadoop/Spark/Kafka
Analityków i inżynierów danych, którzy pragną zrozumieć architekturę i narzędzia Apache do przetwarzania i analizy danych
Osób planujących rozbudowę istniejących rozwiązań lub rozpoczęcie nowych projektów Big Data

Czego nauczysz się na tym szkoleniu?

Projektować i implementować potoki danych do przetwarzania wsadowego i strumieniowego.
Poznasz zasady budowy nowoczesnej, skalowalnej architektury Big Data w oparciu o narzędzia Apache.
Zdobędziesz umiejętności konfiguracji i zarządzania systemami Hadoop, Kafka, NiFi, Spark oraz Flink.
Opanujesz techniki zarządzania metadanymi, linią pochodzenia danych oraz automatyzacją workflow.
Poznasz dobre praktyki wdrożeniowe oraz sposoby optymalizacji i monitoringu platform Big Data.

Wymagania:

Podstawowa znajomość programowania obiektowego w Java lub Python
Znajomość podstaw Big Data i/lub Hadoop będzie dodatkowym atutem

Program szkolenia

Dzień 1: Fundamenty architektury Big Data i narzędzia Apache

Moduł 1: Wprowadzenie do architektury Big Data

Podstawowe pojęcia i warstwy architektury Big Data: dane, przetwarzanie, zarządzanie, analiza.
Modele architektury: Data Lake, Lambda, Kappa i Data Lakehouse.
Omówienie kryteriów projektowania: typ danych, skalowalność, charakterystyka batch i stream processing.
Przegląd sposobów przetwarzania danych: batch vs stream.

Moduł 2: Apache Hadoop i HDFS

Architektura HDFS – rola NameNode i DataNode, rozproszony system plików.
Przetwarzanie wsadowe z MapReduce – podstawy i zastosowania.
Administracja i monitorowanie klastra Hadoop.

Moduł 3: Podstawy programowania w Python w kontekście Big Data

Zalety funkcjonalnego podejścia i porównanie Pythona z Javą.
Elementy języka Python wykorzystywane przy przetwarzaniu danych: praca z DataFrame, funkcje lambda, komprehensje, map, filter.
Ćwiczenia praktyczne: proste przetwarzanie danych, integracja z narzędziami Big Data (np. PySpark).

Dzień 2: Narzędzia do przetwarzania i integracji danych

Moduł 4: Strumieniowanie i kolejki – Apache Kafka i Apache NiFi

Apache Kafka: architektura, producent, konsument, partycje, replikacja.
Apache NiFi: zarządzanie przepływami danych – integracja źródeł i odbiorników.
Praktyczne ćwiczenia: tworzenie przepływów danych i monitorowanie.

Moduł 5: Analiza danych w czasie rzeczywistym i wsadowa – Apache Spark i Flink

Spark: architektura, RDD, DataFrame, Spark SQL.
Flink: zastosowania do stream processing, okna czasowe, zarządzanie stanem.
Projektowanie zadań batch i streamingowych, optymalizacja i tuning, Catalyst.
Integracja z Apache Hadoop i deployment aplikacji.

Dzień 3 (opcjonalnie): Przechowywanie danych, zarządzanie workflow i governance

Moduł 6: Zarządzanie danymi i metadanymi – Apache Iceberg, Apache Atlas oraz Apache Druid

Apache Iceberg – format tabel skalowalnych, wsparcie ACID, optymalizacja zapytań.
Apache Atlas – metadane, governance danych, śledzenie linii pochodzenia danych.
Apache Druid – Architektura i komponenty Druid, indeksowanie danych. Zarządzanie danymi w czasie rzeczywistym i batch.

Moduł 7: Automatyzacja i orchestracja – Apache Airflow i CI/CD dla Big Data

Projektowanie workflow danych i zarządzanie zależnościami z Airflow.
Praktyczne aspekty implementacji potoków danych oraz automatyzacji przetwarzania.
Integracja z narzędziami CI/CD oraz zarządzanie środowiskami produkcyjnymi.
Automatyzacja i orkiestracja procesów data pipeline.
Definiowanie DAG, praca z taskami w Python i Bash.

Skontaktuj sie z nami

zorganizujemy dla Ciebie szkolenie dopasowane do Twoich potrzeb

Przemysław Wołosz

Key Account Manager

+48 730 830 801

przemyslaw.wolosz@infoShareAcademy.com