Szkolenie Projektowanie platformy Big Data z użyciem narzędzi z rodziny Apache

Poziom

Średniozaawansowany

Czas

24h / 3 dni

Termin

Indywidualnie

Cena

Indywidualnie

Szkolenie Projektowanie platformy Big Data z użyciem narzędzi z rodziny Apache

Szkolenie „Projektowanie platformy Big Data z użyciem narzędzi z rodziny Apache” to praktyczne, 3 dniowe warsztaty, podczas których uczestnicy poznają nowoczesne metody budowy skalowalnych i efektywnych platform Big Data. Program oparty jest na zestawie popularnych i otwartych narzędzi Apache, takich jak Apache Hadoop, Spark, Kafka, NiFi, Flink, Iceberg czy Airflow, dzięki czemu kurs pozwala nie tylko zrozumieć teoretyczne podstawy architektury, ale także zdobyć umiejętności praktyczne w projektowaniu, implementacji i zarządzaniu kompleksowymi systemami analitycznymi. Szkolenie łączy 80% praktyki z 20% wiedzy teoretycznej, co umożliwia szybkie zdobycie kompetencji do pracy z dużymi wolumenami danych w środowiskach produkcyjnych.

Dla kogo jest to szkolenie?
  • logo infoshare Specjalistów IT, architektów dużych danych i inżynierów danych chcących zaprojektować nowoczesne, skalowalne platformy Big Data
  • logo infoshare DevOps i administratorów odpowiedzialnych za wdrożenie i zarządzanie infrastrukturą Hadoop/Spark/Kafka
  • logo infoshare Analityków i inżynierów danych, którzy pragną zrozumieć architekturę i narzędzia Apache do przetwarzania i analizy danych
  • logo infoshare Osób planujących rozbudowę istniejących rozwiązań lub rozpoczęcie nowych projektów Big Data
Czego nauczysz się na tym szkoleniu?
  • logo infoshare Projektować i implementować potoki danych do przetwarzania wsadowego i strumieniowego.
  • logo infoshare Poznasz zasady budowy nowoczesnej, skalowalnej architektury Big Data w oparciu o narzędzia Apache.
  • logo infoshare Zdobędziesz umiejętności konfiguracji i zarządzania systemami Hadoop, Kafka, NiFi, Spark oraz Flink.
  • logo infoshare Opanujesz techniki zarządzania metadanymi, linią pochodzenia danych oraz automatyzacją workflow.
  • logo infoshare Poznasz dobre praktyki wdrożeniowe oraz sposoby optymalizacji i monitoringu platform Big Data.

Wymagania:

  • Podstawowa znajomość programowania obiektowego w Java lub Python
  • Znajomość podstaw Big Data i/lub Hadoop będzie dodatkowym atutem

Program szkolenia

Dzień 1: Fundamenty architektury Big Data i narzędzia Apache

 

Moduł 1: Wprowadzenie do architektury Big Data

  • Podstawowe pojęcia i warstwy architektury Big Data: dane, przetwarzanie, zarządzanie, analiza.
  • Modele architektury: Data Lake, Lambda, Kappa i Data Lakehouse.
  • Omówienie kryteriów projektowania: typ danych, skalowalność, charakterystyka batch i stream processing.
  • Przegląd sposobów przetwarzania danych: batch vs stream.

Moduł 2: Apache Hadoop i HDFS

  • Architektura HDFS – rola NameNode i DataNode, rozproszony system plików.
  • Przetwarzanie wsadowe z MapReduce – podstawy i zastosowania.
  • Administracja i monitorowanie klastra Hadoop.

Moduł 3: Podstawy programowania w Python w kontekście Big Data

  • Zalety funkcjonalnego podejścia i porównanie Pythona z Javą.
  • Elementy języka Python wykorzystywane przy przetwarzaniu danych: praca z DataFrame, funkcje lambda, komprehensje, map, filter.
  • Ćwiczenia praktyczne: proste przetwarzanie danych, integracja z narzędziami Big Data (np. PySpark).

Dzień 2: Narzędzia do przetwarzania i integracji danych

 

Moduł 4: Strumieniowanie i kolejki – Apache Kafka i Apache NiFi

  • Apache Kafka: architektura, producent, konsument, partycje, replikacja.
  • Apache NiFi: zarządzanie przepływami danych – integracja źródeł i odbiorników.
  • Praktyczne ćwiczenia: tworzenie przepływów danych i monitorowanie.

Moduł 5: Analiza danych w czasie rzeczywistym i wsadowa – Apache Spark i Flink

  • Spark: architektura, RDD, DataFrame, Spark SQL.
  • Flink: zastosowania do stream processing, okna czasowe, zarządzanie stanem.
  • Projektowanie zadań batch i streamingowych, optymalizacja i tuning, Catalyst.
  • Integracja z Apache Hadoop i deployment aplikacji.

 

Dzień 3 (opcjonalnie): Przechowywanie danych, zarządzanie workflow i governance

 

Moduł 6: Zarządzanie danymi i metadanymi – Apache Iceberg, Apache Atlas oraz Apache Druid

  • Apache Iceberg – format tabel skalowalnych, wsparcie ACID, optymalizacja zapytań.
  • Apache Atlas – metadane, governance danych, śledzenie linii pochodzenia danych.
  • Apache Druid – Architektura i komponenty Druid, indeksowanie danych. Zarządzanie danymi w czasie rzeczywistym i batch.

Moduł 7: Automatyzacja i orchestracja – Apache Airflow i CI/CD dla Big Data

  • Projektowanie workflow danych i zarządzanie zależnościami z Airflow.
  • Praktyczne aspekty implementacji potoków danych oraz automatyzacji przetwarzania.
  • Integracja z narzędziami CI/CD oraz zarządzanie środowiskami produkcyjnymi.
  • Automatyzacja i orkiestracja procesów data pipeline.
  • Definiowanie DAG, praca z taskami w Python i Bash.

Skontaktuj sie z nami

zorganizujemy dla Ciebie szkolenie dopasowane do Twoich potrzeb

Przemysław Wołosz

Key Account Manager

przemyslaw.wolosz@infoShareAcademy.com

    Administratorem danych osobowych jest InfoShare Academy Sp. z o.o. z siedzibą w Gdańsku, al. Grunwaldzka 427B, 80-309 Gdańsk, KRS: 0000531749, NIP: 5842742121. Dane osobowe przetwarzane są zgodnie z klauzulą informacyjną.