Kurs Data Engineer

KURS WIECZOROWY

Upskill

Certyfikat

Zdalnie

Termin3.12.2024 – 1.07.2025sprawdź liczbę godzin »
Kiedywtorki i czwartki (17.30 – 20.30)
Cena (brutto)
8400 zł
8900 zł
Najniższa cena z 30 dni: 8 400zł.
Raty PayU 0%
Formy finansowania sprawdź »

Dla kogo jest kurs Data Engineer?

Nie musisz być analitykiem, nie musisz umieć programować, żeby ukończyć kurs Data Engineer – to kurs dla początkujących, na którym od podstaw nauczysz się pracy z danymi. Śmiało więc wskakuj na pokład, jeśli:

lubisz analizować dane
uwielbiasz matematykę
lubisz rozwiązywać skomplikowane problemy
lubisz rozwiązywać techniczne problemy

Czego nauczysz się na kursie Data Engineer?

poznasz zaawansowane techniki analizy danych
nauczysz się automatyzacji procesów za pomocą narzędzi takich jak Apache Airflow
nauczysz się projektowania i zarządzania skalowalnymi architekturami danych
rozwiniesz swoje umiejętności programowania w Pythonie
poznasz jak budować i zarządzać Data Lakes i Data Warehouses
nauczysz się pracy z Big Data przy użyciu narzędzi takich jak Hadoop i Spark
rozwiniesz swoje umiejętności w zakresie optymalizacji zapytań i wydajności baz danych
rozwiniesz swoje umiejętności w pracy z bazami danych SQL i NoSQL
dowiesz się jak wdrożyć Data Mesh w organizacji
poznasz jak implementować rozwiązania w chmurze z użyciem AWS

Zobacz program Data Engineer

Moduł 0: Prework

Ten moduł kursu służy jako wprowadzenie do podstawowych narzędzi i technologii niezbędnych w pracy jako Data Engineer. Nauczysz się podstaw Gita – systemu kontroli wersji, który jest standardem dla zarządzania kodem źródłowym. Poznasz również podstawy języka Python – jednego z najpopularniejszych języków programowania w analizie danych, a także poznasz język SQL, kluczowy dla operacji na bazach danych.

💻 Czego się nauczysz?

  • Git: poznasz podstawy pracy z systemem kontroli wersji Git, nauczysz się, jak śledzić zmiany w projekcie, a także dowiesz się, jak korzystać z repozytoriów i współpracować z innymi programistami.
  • Python: nauczysz się podstaw składni języka Python, w tym zmiennych, pętli i funkcji.
  • SQL: wykonasz podstawowe operacje na bazach danych z użyciem SQL oraz zrozumiesz, jak projektować proste schematy bazy danych.
Moduł 1: Wprowadzenie do Data Engineering

Zajęcia te wprowadzają do roli Data Engineera i jego odpowiedzialności w organizacji. Omówione zostaną podstawowe technologie i narzędzia stosowane w Data Engineeringu. Dowiesz się o znaczeniu integracji danych i zarządzania nimi. Na koniec omówione zostaną najlepsze praktyki w zakresie zarządzania danymi i projektowania systemów danych.

💻 Czego się nauczysz?

  • Poznanie roli i odpowiedzialności Data Engineera w strukturze organizacji.
  • Nauka podstawowych technologii i narzędzi stosowanych w Data Engineeringu.
  • Zrozumienie znaczenia integracji i zarządzania danymi w organizacjach.
  • Zapoznanie się z najlepszymi praktykami w projektowaniu systemów danych.
  • Zrozumienie, jak różne technologie wspierają procesy biznesowe w Data Engineeringu.
  • Nauka podstawowych koncepcji architektury danych.
Moduł 2: Wprowadzenie do AWS

W ramach tego bloku przedstawione zostaną podstawy korzystania z usług AWS, które są kluczowe dla Data Engineerów. Zdobędziesz wiedzę na temat najpopularniejszych usług AWS, takich jak EC2, S3, EBS, EFS, FSx, Glacier. Nacisk zostanie położony na praktyczne zastosowanie AWS w rozwiązaniach Data Engineering. Nauczysz się, jak skonfigurować i zarządzać infrastrukturą w chmurze. Zajęcia obejmują również najlepsze praktyki dotyczące bezpieczeństwa i optymalizacji kosztów.

💻 Czego się nauczysz?

  • Nauka konfiguracji i zarządzania podstawowymi usługami AWS, takimi jak EC2 i S3.
  • Poznanie zasad zarządzania dostępem i bezpieczeństwem w środowisku chmurowym.
  • Zrozumienie, jak integrować różne usługi AWS w celu tworzenia kompleksowych rozwiązań.
  • Nauka optymalizacji wydajności usług AWS oraz monitorowania zasobów.
  • Poznanie metod konfiguracji sieci i storage w AWS.
  • Zrozumienie podstaw zarządzania kosztami w AWS i optymalizacji zasobów chmurowych.
Moduł 3: Database i zaawansowany SQL:

Moduł ten skupia się na zaawansowanych technikach SQL niezbędnych dla Data Engineera. Zgłębisz budowanie skomplikowanych zapytań, tematykę optymalizacji wydajności i zarządzanie dużymi zbiorami danych. Tematyka bloku obejmuje funkcje okna oraz CTE. Nauczysz się także, jak analizować i interpretować dane za pomocą SQL. Moduł ten przygotowuje również do projektowania i implementacji rozwiązań bazodanowych w realnych środowiskach biznesowych.

💻 Czego się nauczysz?

  • Nauka budowania skomplikowanych zapytań SQL z wykorzystaniem funkcji okna i CTE.
  • Poznanie zaawansowanych technik optymalizacji zapytań i indeksowania baz danych.
  • Zrozumienie, jak projektować i implementować schematy baz danych dla różnych scenariuszy biznesowych.
  • Nauka zarządzania dużymi zbiorami danych i optymalizacji ich przechowywania.
  • Poznanie technik partycjonowania danych w bazach SQL.
  • Zrozumienie, jak analizować i interpretować dane za pomocą zaawansowanych zapytań SQL.
Moduł 4: Zaawansowany Python dla Data Engineering

Ten moduł koncentruje się na zaawansowanych technikach programowania w Pythonie, które są kluczowe dla pracy jako Data Engineer. Nauczysz się tworzyć skuteczne skrypty i aplikacje, które przetwarzają i analizują duże ilości danych. Moduł obejmuje obsługę korzystanie z bibliotek takich jak Pandas, NumPy i polars, a także przybliża tematykę pracy z API i integracji zewnętrznych źródeł danych.

💻 Czego się nauczysz?

  • Nauka korzystania z bibliotek Pandas, NumPy i Polars do przetwarzania dużych zbiorów danych.
  • Poznanie zaawansowanych technik programowania w Pythonie, takich jak zarządzanie pamięcią i optymalizacja kodu.
  • Zrozumienie, jak tworzyć skrypty Pythona do automatyzacji zadań związanych z przetwarzaniem danych.
  • Nauka pracy z API do pobierania i integrowania danych z zewnętrznych źródeł.
  • Nauka integracji różnych źródeł danych w aplikacjach Pythonowych.
  • Poznanie narzędzi do monitorowania i optymalizacji wydajności aplikacji Pythonowych.
Moduł 5: Wprowadzenie do Big Data (PySpark)

W ramach tego modułu wdrożysz się do technologii PySpark, której używa się do przetwarzania dużych zbiorów danych w środowisku rozproszonym. Zapoznasz się między innymi z Lazy evaluation, Transformations, Parallelism czy skalowaniem. Praktyczne ćwiczenia pomogą zrozumieć, jak implementować rozwiązania Big Data w realnych projektach.

💻 Czego się nauczysz?

  • Nauka podstaw pracy z RDD i DataFrame’ami w PySpark.
  • Zrozumienie, jak działa Lazy evaluation i Transformations w PySpark.
  • Nauka skalowania aplikacji PySpark w środowiskach rozproszonych.
  • Poznanie technik zarządzania pamięcią i optymalizacji przetwarzania w PySpark.
  • Zrozumienie podstaw równoległości i przetwarzania równoległego w PySpark.
  • Nauka implementacji projektów Big Data z wykorzystaniem PySpark.
Moduł 6: Extract, Transform, Load (ETL)

Ten moduł koncentruje się na procesach ekstrakcji, transformacji i ładowania danych, które są kluczowe dla każdego projektu Data Engineering. Nauczysz się, jak projektować i implementować procesy ETL, które efektywnie przetwarzają dane z różnorodnych źródeł i przygotowują je do analizy. Omawiane w ramach bloku studia przypadków pomogą zrozumieć, jak stosować te techniki w różnych środowiskach biznesowych.

💻 Czego się nauczysz?

  • Nauka projektowania procesów ETL do przetwarzania danych z różnych źródeł.
  • Poznanie technik transformacji danych w celu uzyskania optymalnych rezultatów.
  • Zrozumienie, jak automatyzować i monitorować procesy ETL w dużych organizacjach.
  • Nauka implementacji narzędzi ETL w różnych środowiskach technologicznych.
  • Poznanie metod walidacji i czyszczenia danych przed ich ładowaniem do baz danych.
  • Zrozumienie, jak integrować procesy ETL z hurtowniami danych i jeziorami danych.
Moduł 7: Praca z bazami NoSQL (DynamoDB)

W tym module kursu nacisk zostanie położony na nierealacyjne bazy danych NoSQL, a szczególnie na DynamoDB od Amazon. Nauczysz się, jak projektować, implementować i zarządzać nierelacyjnymi bazami danych. Omówione zostaną ponadto kluczowe koncepcje takie jak rodzaje baz NoSQL, modele danych oraz ich skalowalność. Praktyczne ćwiczenia pomogą zrozumieć, jak wykorzystywać DynamoDB do efektywnego przechowywania i odpytywania danych w różnorodnych aplikacjach.

💻 Czego się nauczysz?

  • Nauka projektowania baz danych z wykorzystaniem modeli NoSQL.
  • Poznanie podstaw pracy z DynamoDB, w tym konfiguracji i zarządzania bazami.
  • Zrozumienie, jak skalować bazy NoSQL w zależności od potrzeb aplikacji.
  • Nauka optymalizacji wydajności zapytań i operacji w bazach NoSQL.
  • Poznanie różnic między modelami relacyjnymi a nierealacyjnymi i ich zastosowań.
  • Zrozumienie, jak zarządzać danymi w środowiskach rozproszonych z wykorzystaniem NoSQL.
Moduł 8: Streaming processing (Apache Kafka)

Moduł wprowadzi Cię do tematyki przetwarzania strumieniowego danych za pomocą Apache Kafka. Nauczysz się, jak projektować, konfigurować i monitorować rozwiązania oparte na Apache Kafka. Moduł pokrywa podstawy architektury, takie jak topiki, producenci, konsumenci, oraz klastry. Zajęcia praktyczne pozwolą na zdobycie doświadczenia w budowaniu systemów przetwarzania strumieniowego w czasie rzeczywistym.

💻 Czego się nauczysz?

  • Nauka konfiguracji i zarządzania klastrami Apache Kafka.
  • Poznanie metod tworzenia i zarządzania topikami, producentami i konsumentami w Kafka.
  • Zrozumienie, jak projektować systemy przetwarzania strumieniowego o wysokiej wydajności.
  • Nauka monitorowania i diagnostyki wydajności systemów Kafka.
  • Poznanie technik skalowania i zarządzania obciążeniem w środowiskach strumieniowych.
  • Zrozumienie architektury rozproszonych systemów przetwarzania strumieniowego.
Moduł 9: Data Warehouses

W tym module dowiesz się, jak projektować, implementować i zarządzać hurtowniami danych. Omówione zostaną kluczowe koncepcje architektoniczne, techniki modelowania danych oraz strategie optymalizacji zapytań. Moduł zapewni wiedzę na temat integracji różnych źródeł danych, zapewniając jednoczesność ich spójność.

💻 Czego się nauczysz?

  • Nauka projektowania i implementacji schematów hurtowni danych.
  • Poznanie narzędzi i technik niezbędnych do przeprowadzania procesów ETL dla hurtowni danych.
  • Nauka integracji różnych źródeł danych z hurtowniami danych.
  • Poznanie metod zarządzania hurtowniami danych w chmurze.
  • Zrozumienie roli hurtowni danych w tworzeniu raportów i analiz biznesowych.
  • Nauka optymalizacji przechowywania danych w hurtowniach dla lepszej wydajności.
Moduł 10: Data Lakes

W tym bloku dowiesz się jak projektować i zarządzać jeziorami danych, które umożliwiają przechowywanie danych w formie surowej i nieschematyzowanej. Zdobędziesz również wiedzę na temat różnic między hurtowniami danych a jeziorami danych, oraz jak te dwa rozwiązania można integrować. Moduł obejmuje także techniki zarządzania metadanymi, bezpieczeństwem oraz optymalizacją dostępu do danych.

💻 Czego się nauczysz?

  • Nauka projektowania architektury jezior danych.
  • Poznanie technik zabezpieczania jezior danych i zarządzania dostępem.
  • Zrozumienie różnic między hurtowniami danych a jeziorami danych oraz ich integracji.
  • Nauka przetwarzania danych w jeziorze danych dla potrzeb analizy.
  • Poznanie narzędzi i strategii monitorowania i zarządzania jeziorami danych.
  • Zrozumienie, jak optymalizować dostęp do danych w jeziorach danych.
Moduł 11: Automatyzacja procesów (Apache Aitflow)

W ramach tego bloku zostanie omówione Apache Airflow, narzędzie do automatyzacji i koordynacji złożonych przepływów danych. Poznasz jak definiować, planować i monitorować przepływy pracy z wykorzystaniem grafów zadań skierowanych (DAGs). Moduł kładzie nacisk na praktyczne zastosowania Airflow w działaniach lokalnych.

💻 Czego się nauczysz?

  • Nauka konfiguracji i uruchamiania środowiska Apache Airflow.
  • Poznanie technik definiowania i zarządzania DAGs dla przepływów pracy.
  • Zrozumienie, jak automatyzować złożone przepływy danych za pomocą Airflow.
  • Nauka integracji Airflow z innymi narzędziami i systemami danych.
  • Poznanie metod monitorowania i zarządzania przepływami pracy w Airflow.
  • Zrozumienie, jak używać Airflow do zarządzania projektami danych w organizacji.
Moduł 12: Databricks

Ten moduł koncentruje się na platformie Databricks, która łączy możliwości przetwarzania dużych zbiorów danych z narzędziami do analizy i uczenia maszynowego. Nauczysz się, jak wykorzystać środowisko Databricks do przetwarzania danych, tworzenia modeli predykcyjnych i współpracy zespołowej. Moduł obejmuje zarówno aspekty techniczne, jak i organizacyjne korzystania z platformy.

💻 Czego się nauczysz?

  • Nauka efektywnego przetwarzania danych w środowisku Databricks.
  • Poznanie metod tworzenia i wdrażania modeli uczenia maszynowego w Databricks.
  • Zrozumienie, jak testować i walidować modele w chmurze z użyciem Databricks.
  • Nauka integracji Databricks z innymi narzędziami analitycznymi i platformami danych.
  • Poznanie narzędzi do współpracy zespołowej dostępnych w Databricks.
  • Zrozumienie, jak zarządzać projektami danych w środowisku chmurowym Databricks.
Moduł 13: Snowflake

W ramach modułu omówione zostaną podstawy Snowflake, chmurowej platformy danych, która umożliwia skalowalne i elastyczne zarządzanie danymi oraz analizy. Pokazana zostanie architektura Snowflake, która oddziela przetwarzanie od przechowywania danych, co pozwala na niezależne skalowanie.

💻 Czego się nauczysz?

  • Nauka konfiguracji i zarządzania środowiskiem Snowflake.
  • Poznanie kluczowych komponentów i architektury Snowflake.
  • Zrozumienie, jak Snowflake oddziela przetwarzanie od przechowywania danych.
  • Nauka zarządzania dużymi zbiorami danych w Snowflake.
  • Poznanie metod czyszczenia i walidacji danych w Snowflake.
  • Zrozumienie, jak korzystać z narzędzi analitycznych dostępnych w Snowflake.
Moduł 14: Data Mesh

Moduł ten poświęcony jest nowoczesnemu podejściu do zarządzania danymi zwanemu Data Mesh. Omówiona zostanie idea decentralizacji zarządzania danymi, gdzie poszczególne działy funkcjonują jako niezależne domeny produkujące dane. Pokazane zostaną zarówno techniczne jak i organizacyjne aspekty takiej transformacji.

💻 Czego się nauczysz?

  • Nauka koncepcji i zasad działania modelu Data Mesh.
  • Poznanie metod planowania i implementacji decentralizacji zarządzania danymi.
  • Zrozumienie, jak definiować i zarządzać domenami danych w organizacji.
  • Nauka utrzymywania spójności i jakości danych w rozproszonym modelu zarządzania.
  • Poznanie technologii wspierających implementację Data Mesh.
  • Zrozumienie wyzwań w implementacji Data Mesh i strategii ich rozwiązywania.

Ile czasu zajmie Ci kurs?

Kurs trwa 121 godzin . Do godzin przewidzianych w programie, zaplanuj co najmniej 30 godzin na dodatkową, indywidualną pracę, która pomoże Ci utrwalić zdobywane kompetencje.

10 hprework – szacowany czas na przygotowanie do kursu
111 hzajęcia z trenerem (zdalnie na żywo)
30 hszacowany czas na indywidualną pracę między zajęciami

Technologie i narzędzia, które opanujesz na kursie Data Engineer

AWS

AWS S3

SQL

Kubernetes

Python

Pandas

NumPy

Polars

API

Hadoop

Spark

DynamoDB

Kafka

Amazon Redshift

Apache Airflow

Databricks

Snowflake

Opinie kursantów

Przeszkoliliśmy ponad 6 800 osób

  • Joanna Garwacka

    Kurs był świetny, jestem bardzo zadowolona. Nawet opcja nauki zdalnej (której się obawiałam) finalnie okazała się bardzo wygodna. Zakres merytoryczny bardzo obszerny, zajęcia prowadzone ciekawie, trenerzy cały czas służyli pomocą. Kurs otworzył mi oczy i też bardzo zainteresował tematyką Data Science (oraz programowaniem w SQL i Pythonie).

  • Dagmara Bromirska

    Uważam, że kurs był zdecydowanie wartościowy, acz intensywny. Bardzo mi odpowiadała możliwość sprawdzenia świeżo zdobytej wiedzy podczas dużej liczby zajęć praktycznych i projektów. Wzbogaciłam wachlarz swoich umiejętności technicznych i mam jeszcze więcej chęci do działania!

  • Kacper Jędrczak

    Kurs spełnił oczekiwania w pełni, wartościowych aspektów było bardzo dużo: zaczynając od solidnych podstaw z sqla, przez pythona, bardzo fajnie opracowaną statystykę, a na machine learningu i dość rozbudowanym deep learningu kończąc. Dużym plusem było przygotowanie merytoryczne i postawa trenerów – naprawdę przyjemnie się z Wami pracowało. Generalnie polecam, niezależnie od tego czy nie masz wiedzy w tym temacie w ogóle, czy też masz już podstawy i potrzebujesz je uporządkować i rozwinąć.

  • Bartosz Stasiak

    Kurs spełnił moje oczekiwania. Pozwolił rozwinąć zainteresowania i potwierdził, że warto zdobyć nieco umiejętności IT, bo ich potencjał jest ogromny. Dodatkowo kurs odnowił we mnie głód wiedzy i poznawania czegoś nowego 🙂 Jako dużą zaletę kursu w InfoShare traktuję fakt, że zajęcia prowadzili różni trenerzy. Uważam, że takie podejście pozwala docenić różnorodność metod nauczania, a także lepiej ocenić – i docenić – jakość poszczególnych trenerów. Osobiście, cieszę się, że zajęcia prowadzili profesjonaliści, którzy znają realia pracy z poznawanymi narzędziami i wiedzą jakie są realne wyzwania i problemy pojawiające się w pracy na stanowisku, do którego kurs przygotowuje. Polecam.

Najczęściej wybierane formy finansowania

Raty PayU 0%
Dofinansowanie z Bazy Usług Rozwojowych
Nieoprocentowane pożyczki OPEN/ Inwestuj w rozwój/ BGK
Urząd Pracy/ KFS

Zapytaj o kurs

Agnieszka Frąckiewicz

Customer Success Coordinator

agnieszka.frackiewicz@infoshareacademy.com (+48) 530 100 686


    Najczęstsze pytania i odpowiedzi

    Jak zapisać się na kurs?

    Aby zapisać się na kurs możesz wypełnić formularz, wysłać maila bezpośrednio do opiekunki lub zadzwonić. W przypadku zgłoszenia się przez formularz otrzymasz od razu maila ze szczegółowym programem kursu oraz informacjami o kolejnych krokach.

    W jakich godzinach odbywają się zajęcia?

    Zajęcia na kursie odbywają się we wtorki i czwartki od 17:30 do 20:30.

    Jak przygotować się do kursu?

    Obowiązkowym punktem rozpoczęcia kursu jest przerobienie preworku – są to materiały do samodzielnej nauki. Otrzymasz od nas wszystkie niezbędne materiały, linki oraz instrukcje, jak krok po kroku zainstalować programy i narzędzia, z których będziesz korzystać w trakcie kursu. Przykładając się do jego wykonania, zapewniasz sobie i reszcie grupy sprawny start w kursie i możliwość bezproblemowego rozpoczęcia nauki i pracy nad projektem. Z drugiej strony, w przypadku naszych kursów – bardzo intensywnych i napakowanych wiedzą, zlekceważenie preworku może skutkować późniejszym nawarstwieniem się zaległości, które będzie niezwykle trudno nadrobić w trakcie kursu.

    Jakie warunki muszę spełnić, aby przystąpić do kursu?

    Kurs jest dla Ciebie, jeśli lubisz analizować dane, masz zamiłowanie do matematyki, lubisz rozwiązywać skomplikowane problemy lub jesteś osobą z technicznym zacięciem. Dodatkowo niezbędne do rozpoczęcia nauki na kursie Data Engineer są: znajomość języka angielskiego na poziomie min. B1/B2, wykonanie preworku, który otrzymasz po zapisaniu się na kurs, wysoka motywacja, dyspozycyjność – czas na zajęcia, ale również naukę w domu.

    Czym kurs różni się od studiów?

    Główną przewagą kursu nad studiami jest warsztatowa forma zajęć – wiedzę zdobytą na zajęciach teoretycznych kursanci wykorzystują od razu na zajęciach praktycznych. Zarówno zajęcia teoretyczne, jak i warsztaty prowadzą doświadczeni trenerzy – praktycy. W Akademii dbamy o to, aby program kursu był dopasowany do aktualnej sytuacji na rynku pracy. Kursy są krótsze niż studia, co z jednej strony wiąże się większym natężeniem zajęć i dostarczanej wiedzy, a z drugiej sprawia, że szybciej możesz rozpocząć swój rozwój w obszarze Data Science. Na koniec – na kursach panuje bardzo dobra atmosfera, kursanci wspierają się wzajemnie i są w stałym kontakcie ze sobą i z trenerami na komunikatorze wewnętrznym w czasie trwania zajęć.

    Czy wiek jest ograniczeniem?

    Jeśli chodzi o samo uczestnictwo w kursach, to wiek nie jest ograniczeniem. Nasze kursy kończyli zarówno 18-latkowie, jak i osoby 50+. Należy jednak pamiętać, że karierę w branży IT zaczyna się od stażu albo od stanowiska juniora, co może wiązać się z otrzymywaniem niższego wynagrodzenia niż na obecnym miejscu pracy, jeśli ma się już kilkanaście lat doświadczenia. Warto wziąć to pod uwagę zanim podejmie się decyzję o przebranżowieniu.

    Jak mogę sfinansować kurs?

    Na rynku jest dostępnych wiele form finansowania kursów, szczegółowe informacje znajdziesz na naszej stronie Finansowanie.

    Czy w trakcie kursu i po kursie będzie dostęp do nagrań?

    Tak, zajęcia są nagrywane i można z nich korzystać, żeby utrwalać wiedzę z zajęć.

    Czy otrzymam certyfikat?

    Oczywiście, po zaliczeniu kursu otrzymasz od nas doceniany na rynku certyfikat infoShare Academy z informacją o zakresie kursu i terminie, w jakim kurs się odbywał. Certyfikat podpisany jest przez CEO infoShare Academy oraz Trenera prowadzącego kurs. Otrzymasz go w formacie PDF, dzięki czemu łatwo podzielisz się informacją o zdobytych kwalifikacjach na LinkedIn z potencjalnymi, przyszłymi pracodawcami lub klientami.