Szkolenie Tworzenie pipelinów / ETL
Poziom
ŚredniozaawansowanyCzas
16h / 2 dniTermin
IndywidualnieCena
IndywidualnieSzkolenie Tworzenie pipelinów / ETL
Szkolenie „Tworzenie pipelinów / ETL” to kompleksowy kurs, który ma na celu wyposażenie uczestników w umiejętności niezbędne do projektowania, implementacji, i zarządzania procesami ETL. Kurs skupia się na praktycznym zastosowaniu narzędzi takich jak Apache Airflow i Talend, umożliwiając uczestnikom naukę poprzez bezpośrednie doświadczenie w tworzeniu efektywnych pipelinów danych.
Dla kogo jest szkolenie Tworzenie pipelinów / ETL?
Szkolenie skierowane jest do analityków danych, inżynierów danych, deweloperów i osób rozwijających rozwiązania data/BI, które chcą projektować i utrzymywać procesy ETL/ELT oraz automatyzować przepływy danych z użyciem narzędzi orkiestracji i ETL.
Wymagane Umiejętności Technologiczne od Uczestników Szkolenia:
Podstawowa znajomość języka programowania Python
Podstawowa wiedza na temat baz danych i SQL
Zrozumienie podstawowych koncepcji przetwarzania danych
Czego nauczysz się na szkoleniu Tworzenie pipelinów / ETL?
- Projektowania i budowy procesów ETL/ELT – definicja etapów przepływu danych, transformacje, ładowania przyrostowe, idempotencja i obsługa błędów
- Orkiestracji przepływów w Apache Airflow – struktura DAG, harmonogramy i zależności, parametryzacja, retry, alerty oraz podstawowa obserwowalność (logi/metryki)
- Budowy procesów ETL w Talend – praca z komponentami i jobami, konfiguracja połączeń, integracja wielu źródeł oraz podstawy optymalizacji i walidacji jakości danych
Program szkolenia
Dzień 1: Podstawy ETL i Apache Airflow
- Wprowadzenie do ETL – procesy ETL/ELT, architektury przepływu danych, przegląd narzędzi i wzorców
- Podstawy Apache Airflow – środowisko uruchomieniowe, konfiguracja, definicja DAG, harmonogramy i zależności zadań
- Projektowanie pipelinów danych – modelowanie zadań, idempotencja i ponawianie, parametryzacja, obsługa błędów, standardy jakości danych w pipeline
Dzień 2: Zaawansowane techniki i Talend
- Zaawansowane operacje w Apache Airflow – operatory i sensory, grupowanie zadań, dynamic task mapping, logi i metryki, alerting, diagnostyka awarii
- Wprowadzenie do Talend – środowisko i komponenty, projekt jobów, metadane połączeń, konteksty i parametry
- Integracja i optymalizacja – integracja procesów ETL z różnymi źródłami danych, walidacja i jakość danych, wydajność i równoległość, ładowania przyrostowe/CDC, bezpieczeństwo połączeń