Dla kogo jest kurs Data Engineer?
Nie musisz być analitykiem, nie musisz umieć programować, żeby ukończyć kurs Data Engineer – to kurs dla początkujących, na którym od podstaw nauczysz się pracy z danymi. Śmiało więc wskakuj na pokład, jeśli:
Czego nauczysz się na kursie Data Engineer?
Zobacz program Data Engineer
Ten moduł kursu służy jako wprowadzenie do podstawowych narzędzi i technologii niezbędnych w pracy jako Data Engineer. Nauczysz się podstaw Gita – systemu kontroli wersji, który jest standardem dla zarządzania kodem źródłowym. Poznasz również podstawy języka Python – jednego z najpopularniejszych języków programowania w analizie danych, a także poznasz język SQL, kluczowy dla operacji na bazach danych.
💻 Czego się nauczysz?
- Git: poznasz podstawy pracy z systemem kontroli wersji Git, nauczysz się, jak śledzić zmiany w projekcie, a także dowiesz się, jak korzystać z repozytoriów i współpracować z innymi programistami.
- Python: nauczysz się podstaw składni języka Python, w tym zmiennych, pętli i funkcji.
- SQL: wykonasz podstawowe operacje na bazach danych z użyciem SQL oraz zrozumiesz, jak projektować proste schematy bazy danych.
Zajęcia te wprowadzają do roli Data Engineera i jego odpowiedzialności w organizacji. Omówione zostaną podstawowe technologie i narzędzia stosowane w Data Engineeringu. Dowiesz się o znaczeniu integracji danych i zarządzania nimi. Na koniec omówione zostaną najlepsze praktyki w zakresie zarządzania danymi i projektowania systemów danych.
💻 Czego się nauczysz?
- Poznanie roli i odpowiedzialności Data Engineera w strukturze organizacji.
- Nauka podstawowych technologii i narzędzi stosowanych w Data Engineeringu.
- Zrozumienie znaczenia integracji i zarządzania danymi w organizacjach.
- Zapoznanie się z najlepszymi praktykami w projektowaniu systemów danych.
- Zrozumienie, jak różne technologie wspierają procesy biznesowe w Data Engineeringu.
- Nauka podstawowych koncepcji architektury danych.
W ramach tego bloku przedstawione zostaną podstawy korzystania z usług AWS, które są kluczowe dla Data Engineerów. Zdobędziesz wiedzę na temat najpopularniejszych usług AWS, takich jak EC2, S3, EBS, EFS, FSx, Glacier. Nacisk zostanie położony na praktyczne zastosowanie AWS w rozwiązaniach Data Engineering. Nauczysz się, jak skonfigurować i zarządzać infrastrukturą w chmurze. Zajęcia obejmują również najlepsze praktyki dotyczące bezpieczeństwa i optymalizacji kosztów.
💻 Czego się nauczysz?
- Nauka konfiguracji i zarządzania podstawowymi usługami AWS, takimi jak EC2 i S3.
- Poznanie zasad zarządzania dostępem i bezpieczeństwem w środowisku chmurowym.
- Zrozumienie, jak integrować różne usługi AWS w celu tworzenia kompleksowych rozwiązań.
- Nauka optymalizacji wydajności usług AWS oraz monitorowania zasobów.
- Poznanie metod konfiguracji sieci i storage w AWS.
- Zrozumienie podstaw zarządzania kosztami w AWS i optymalizacji zasobów chmurowych.
Moduł ten skupia się na zaawansowanych technikach SQL niezbędnych dla Data Engineera. Zgłębisz budowanie skomplikowanych zapytań, tematykę optymalizacji wydajności i zarządzanie dużymi zbiorami danych. Tematyka bloku obejmuje funkcje okna oraz CTE. Nauczysz się także, jak analizować i interpretować dane za pomocą SQL. Moduł ten przygotowuje również do projektowania i implementacji rozwiązań bazodanowych w realnych środowiskach biznesowych.
💻 Czego się nauczysz?
- Nauka budowania skomplikowanych zapytań SQL z wykorzystaniem funkcji okna i CTE.
- Poznanie zaawansowanych technik optymalizacji zapytań i indeksowania baz danych.
- Zrozumienie, jak projektować i implementować schematy baz danych dla różnych scenariuszy biznesowych.
- Nauka zarządzania dużymi zbiorami danych i optymalizacji ich przechowywania.
- Poznanie technik partycjonowania danych w bazach SQL.
- Zrozumienie, jak analizować i interpretować dane za pomocą zaawansowanych zapytań SQL.
Ten moduł koncentruje się na zaawansowanych technikach programowania w Pythonie, które są kluczowe dla pracy jako Data Engineer. Nauczysz się tworzyć skuteczne skrypty i aplikacje, które przetwarzają i analizują duże ilości danych. Moduł obejmuje obsługę korzystanie z bibliotek takich jak Pandas, NumPy i polars, a także przybliża tematykę pracy z API i integracji zewnętrznych źródeł danych.
💻 Czego się nauczysz?
- Nauka korzystania z bibliotek Pandas, NumPy i Polars do przetwarzania dużych zbiorów danych.
- Poznanie zaawansowanych technik programowania w Pythonie, takich jak zarządzanie pamięcią i optymalizacja kodu.
- Zrozumienie, jak tworzyć skrypty Pythona do automatyzacji zadań związanych z przetwarzaniem danych.
- Nauka pracy z API do pobierania i integrowania danych z zewnętrznych źródeł.
- Nauka integracji różnych źródeł danych w aplikacjach Pythonowych.
- Poznanie narzędzi do monitorowania i optymalizacji wydajności aplikacji Pythonowych.
W ramach tego modułu wdrożysz się do technologii PySpark, której używa się do przetwarzania dużych zbiorów danych w środowisku rozproszonym. Zapoznasz się między innymi z Lazy evaluation, Transformations, Parallelism czy skalowaniem. Praktyczne ćwiczenia pomogą zrozumieć, jak implementować rozwiązania Big Data w realnych projektach.
💻 Czego się nauczysz?
- Nauka podstaw pracy z RDD i DataFrame’ami w PySpark.
- Zrozumienie, jak działa Lazy evaluation i Transformations w PySpark.
- Nauka skalowania aplikacji PySpark w środowiskach rozproszonych.
- Poznanie technik zarządzania pamięcią i optymalizacji przetwarzania w PySpark.
- Zrozumienie podstaw równoległości i przetwarzania równoległego w PySpark.
- Nauka implementacji projektów Big Data z wykorzystaniem PySpark.
Ten moduł koncentruje się na procesach ekstrakcji, transformacji i ładowania danych, które są kluczowe dla każdego projektu Data Engineering. Nauczysz się, jak projektować i implementować procesy ETL, które efektywnie przetwarzają dane z różnorodnych źródeł i przygotowują je do analizy. Omawiane w ramach bloku studia przypadków pomogą zrozumieć, jak stosować te techniki w różnych środowiskach biznesowych.
💻 Czego się nauczysz?
- Nauka projektowania procesów ETL do przetwarzania danych z różnych źródeł.
- Poznanie technik transformacji danych w celu uzyskania optymalnych rezultatów.
- Zrozumienie, jak automatyzować i monitorować procesy ETL w dużych organizacjach.
- Nauka implementacji narzędzi ETL w różnych środowiskach technologicznych.
- Poznanie metod walidacji i czyszczenia danych przed ich ładowaniem do baz danych.
- Zrozumienie, jak integrować procesy ETL z hurtowniami danych i jeziorami danych.
W tym module kursu nacisk zostanie położony na nierealacyjne bazy danych NoSQL, a szczególnie na DynamoDB od Amazon. Nauczysz się, jak projektować, implementować i zarządzać nierelacyjnymi bazami danych. Omówione zostaną ponadto kluczowe koncepcje takie jak rodzaje baz NoSQL, modele danych oraz ich skalowalność. Praktyczne ćwiczenia pomogą zrozumieć, jak wykorzystywać DynamoDB do efektywnego przechowywania i odpytywania danych w różnorodnych aplikacjach.
💻 Czego się nauczysz?
- Nauka projektowania baz danych z wykorzystaniem modeli NoSQL.
- Poznanie podstaw pracy z DynamoDB, w tym konfiguracji i zarządzania bazami.
- Zrozumienie, jak skalować bazy NoSQL w zależności od potrzeb aplikacji.
- Nauka optymalizacji wydajności zapytań i operacji w bazach NoSQL.
- Poznanie różnic między modelami relacyjnymi a nierealacyjnymi i ich zastosowań.
- Zrozumienie, jak zarządzać danymi w środowiskach rozproszonych z wykorzystaniem NoSQL.
Moduł wprowadzi Cię do tematyki przetwarzania strumieniowego danych za pomocą Apache Kafka. Nauczysz się, jak projektować, konfigurować i monitorować rozwiązania oparte na Apache Kafka. Moduł pokrywa podstawy architektury, takie jak topiki, producenci, konsumenci, oraz klastry. Zajęcia praktyczne pozwolą na zdobycie doświadczenia w budowaniu systemów przetwarzania strumieniowego w czasie rzeczywistym.
💻 Czego się nauczysz?
- Nauka konfiguracji i zarządzania klastrami Apache Kafka.
- Poznanie metod tworzenia i zarządzania topikami, producentami i konsumentami w Kafka.
- Zrozumienie, jak projektować systemy przetwarzania strumieniowego o wysokiej wydajności.
- Nauka monitorowania i diagnostyki wydajności systemów Kafka.
- Poznanie technik skalowania i zarządzania obciążeniem w środowiskach strumieniowych.
- Zrozumienie architektury rozproszonych systemów przetwarzania strumieniowego.
W tym module dowiesz się, jak projektować, implementować i zarządzać hurtowniami danych. Omówione zostaną kluczowe koncepcje architektoniczne, techniki modelowania danych oraz strategie optymalizacji zapytań. Moduł zapewni wiedzę na temat integracji różnych źródeł danych, zapewniając jednoczesność ich spójność.
💻 Czego się nauczysz?
- Nauka projektowania i implementacji schematów hurtowni danych.
- Poznanie narzędzi i technik niezbędnych do przeprowadzania procesów ETL dla hurtowni danych.
- Nauka integracji różnych źródeł danych z hurtowniami danych.
- Poznanie metod zarządzania hurtowniami danych w chmurze.
- Zrozumienie roli hurtowni danych w tworzeniu raportów i analiz biznesowych.
- Nauka optymalizacji przechowywania danych w hurtowniach dla lepszej wydajności.
W tym bloku dowiesz się jak projektować i zarządzać jeziorami danych, które umożliwiają przechowywanie danych w formie surowej i nieschematyzowanej. Zdobędziesz również wiedzę na temat różnic między hurtowniami danych a jeziorami danych, oraz jak te dwa rozwiązania można integrować. Moduł obejmuje także techniki zarządzania metadanymi, bezpieczeństwem oraz optymalizacją dostępu do danych.
💻 Czego się nauczysz?
- Nauka projektowania architektury jezior danych.
- Poznanie technik zabezpieczania jezior danych i zarządzania dostępem.
- Zrozumienie różnic między hurtowniami danych a jeziorami danych oraz ich integracji.
- Nauka przetwarzania danych w jeziorze danych dla potrzeb analizy.
- Poznanie narzędzi i strategii monitorowania i zarządzania jeziorami danych.
- Zrozumienie, jak optymalizować dostęp do danych w jeziorach danych.
W ramach tego bloku zostanie omówione Apache Airflow, narzędzie do automatyzacji i koordynacji złożonych przepływów danych. Poznasz jak definiować, planować i monitorować przepływy pracy z wykorzystaniem grafów zadań skierowanych (DAGs). Moduł kładzie nacisk na praktyczne zastosowania Airflow w działaniach lokalnych.
💻 Czego się nauczysz?
- Nauka konfiguracji i uruchamiania środowiska Apache Airflow.
- Poznanie technik definiowania i zarządzania DAGs dla przepływów pracy.
- Zrozumienie, jak automatyzować złożone przepływy danych za pomocą Airflow.
- Nauka integracji Airflow z innymi narzędziami i systemami danych.
- Poznanie metod monitorowania i zarządzania przepływami pracy w Airflow.
- Zrozumienie, jak używać Airflow do zarządzania projektami danych w organizacji.
Ten moduł koncentruje się na platformie Databricks, która łączy możliwości przetwarzania dużych zbiorów danych z narzędziami do analizy i uczenia maszynowego. Nauczysz się, jak wykorzystać środowisko Databricks do przetwarzania danych, tworzenia modeli predykcyjnych i współpracy zespołowej. Moduł obejmuje zarówno aspekty techniczne, jak i organizacyjne korzystania z platformy.
💻 Czego się nauczysz?
- Nauka efektywnego przetwarzania danych w środowisku Databricks.
- Poznanie metod tworzenia i wdrażania modeli uczenia maszynowego w Databricks.
- Zrozumienie, jak testować i walidować modele w chmurze z użyciem Databricks.
- Nauka integracji Databricks z innymi narzędziami analitycznymi i platformami danych.
- Poznanie narzędzi do współpracy zespołowej dostępnych w Databricks.
- Zrozumienie, jak zarządzać projektami danych w środowisku chmurowym Databricks.
W ramach modułu omówione zostaną podstawy Snowflake, chmurowej platformy danych, która umożliwia skalowalne i elastyczne zarządzanie danymi oraz analizy. Pokazana zostanie architektura Snowflake, która oddziela przetwarzanie od przechowywania danych, co pozwala na niezależne skalowanie.
💻 Czego się nauczysz?
- Nauka konfiguracji i zarządzania środowiskiem Snowflake.
- Poznanie kluczowych komponentów i architektury Snowflake.
- Zrozumienie, jak Snowflake oddziela przetwarzanie od przechowywania danych.
- Nauka zarządzania dużymi zbiorami danych w Snowflake.
- Poznanie metod czyszczenia i walidacji danych w Snowflake.
- Zrozumienie, jak korzystać z narzędzi analitycznych dostępnych w Snowflake.
Moduł ten poświęcony jest nowoczesnemu podejściu do zarządzania danymi zwanemu Data Mesh. Omówiona zostanie idea decentralizacji zarządzania danymi, gdzie poszczególne działy funkcjonują jako niezależne domeny produkujące dane. Pokazane zostaną zarówno techniczne jak i organizacyjne aspekty takiej transformacji.
💻 Czego się nauczysz?
- Nauka koncepcji i zasad działania modelu Data Mesh.
- Poznanie metod planowania i implementacji decentralizacji zarządzania danymi.
- Zrozumienie, jak definiować i zarządzać domenami danych w organizacji.
- Nauka utrzymywania spójności i jakości danych w rozproszonym modelu zarządzania.
- Poznanie technologii wspierających implementację Data Mesh.
- Zrozumienie wyzwań w implementacji Data Mesh i strategii ich rozwiązywania.
Technologie i narzędzia, które opanujesz na kursie Data Engineer
AWS
AWS S3
SQL
Kubernetes
Python
Pandas
NumPy
Polars
API
Hadoop
Spark
DynamoDB
Kafka
Amazon Redshift
Apache Airflow
Databricks
Snowflake
Opinie kursantów
Przeszkoliliśmy ponad 7 500 osób
Najczęściej wybierane formy finansowania
Zarezerwuj niższą cenę lub zapytaj o kurs
Najczęstsze pytania i odpowiedzi
Aby zapisać się na kurs możesz wypełnić formularz, wysłać maila bezpośrednio do opiekunki lub zadzwonić. W przypadku zgłoszenia się przez formularz otrzymasz od razu maila ze szczegółowym programem kursu oraz informacjami o kolejnych krokach.
Zajęcia na kursie odbywają się w soboty i niedziele od 8:00 do 11: 00.
Obowiązkowym punktem rozpoczęcia kursu jest przerobienie preworku – są to materiały do samodzielnej nauki. Otrzymasz od nas wszystkie niezbędne materiały, linki oraz instrukcje, jak krok po kroku zainstalować programy i narzędzia, z których będziesz korzystać w trakcie kursu. Przykładając się do jego wykonania, zapewniasz sobie i reszcie grupy sprawny start w kursie i możliwość bezproblemowego rozpoczęcia nauki i pracy nad projektem. Z drugiej strony, w przypadku naszych kursów – bardzo intensywnych i napakowanych wiedzą, zlekceważenie preworku może skutkować późniejszym nawarstwieniem się zaległości, które będzie niezwykle trudno nadrobić w trakcie kursu.
Kurs jest dla Ciebie, jeśli lubisz analizować dane, masz zamiłowanie do matematyki, lubisz rozwiązywać skomplikowane problemy lub jesteś osobą z technicznym zacięciem. Dodatkowo niezbędne do rozpoczęcia nauki na kursie Data Engineer są: znajomość języka angielskiego na poziomie min. B1/B2, wykonanie preworku, który otrzymasz po zapisaniu się na kurs, wysoka motywacja, dyspozycyjność – czas na zajęcia, ale również naukę w domu.
Główną przewagą kursu nad studiami jest warsztatowa forma zajęć – wiedzę zdobytą na zajęciach teoretycznych kursanci wykorzystują od razu na zajęciach praktycznych. Zarówno zajęcia teoretyczne, jak i warsztaty prowadzą doświadczeni trenerzy – praktycy. W Akademii dbamy o to, aby program kursu był dopasowany do aktualnej sytuacji na rynku pracy. Kursy są krótsze niż studia, co z jednej strony wiąże się większym natężeniem zajęć i dostarczanej wiedzy, a z drugiej sprawia, że szybciej możesz rozpocząć swój rozwój w obszarze Data Science. Na koniec – na kursach panuje bardzo dobra atmosfera, kursanci wspierają się wzajemnie i są w stałym kontakcie ze sobą i z trenerami na komunikatorze wewnętrznym w czasie trwania zajęć.
Jeśli chodzi o samo uczestnictwo w kursach, to wiek nie jest ograniczeniem. Nasze kursy kończyli zarówno 18-latkowie, jak i osoby 50+. Należy jednak pamiętać, że karierę w branży IT zaczyna się od stażu albo od stanowiska juniora, co może wiązać się z otrzymywaniem niższego wynagrodzenia niż na obecnym miejscu pracy, jeśli ma się już kilkanaście lat doświadczenia. Warto wziąć to pod uwagę zanim podejmie się decyzję o przebranżowieniu.
Na rynku jest dostępnych wiele form finansowania kursów, szczegółowe informacje znajdziesz na naszej stronie Finansowanie.
Tak, zajęcia są nagrywane i można z nich korzystać, żeby utrwalać wiedzę z zajęć.
Oczywiście, po zaliczeniu kursu otrzymasz od nas doceniany na rynku certyfikat infoShare Academy z informacją o zakresie kursu i terminie, w jakim kurs się odbywał. Certyfikat podpisany jest przez CEO infoShare Academy oraz Trenera prowadzącego kurs. Otrzymasz go w formacie PDF, dzięki czemu łatwo podzielisz się informacją o zdobytych kwalifikacjach na LinkedIn z potencjalnymi, przyszłymi pracodawcami lub klientami.