Szkolenie Apache Spark
Poziom
PodstawowyCzas
16h / 2 dniTermin
IndywidualnieCena
IndywidualnieSzkolenie z Apache Spark
Szkolenie Apache Spark to intensywny, dwudniowy kurs, skoncentrowany na praktycznym zastosowaniu tego popularnego frameworka do przetwarzania dużych zbiorów danych. Program szkolenia jest zaprojektowany w taki sposób, aby 80% czasu było poświęcone na praktyczne warsztaty, a 20% na teorię. Uczestnicy zdobędą solidne podstawy teoretyczne oraz praktyczne umiejętności w korzystaniu z Apache Spark, pracując na rzeczywistych danych i rozwiązując praktyczne problemy.
Dla kogo jest szkolenie z Apache Spark?
Programistów i inżynierów danych, którzy chcą poszerzyć swoje umiejętności o Apache Spark
Data scientistów i analityków danych, pragnących przetwarzać duże zbiory danych w efektywny sposób
Specjalistów IT i big data, którzy chcą wykorzystać Apache Spark w swoich projektach
Wymagane umiejętności technologiczne:
- Znajomość podstaw programowania w Pythonie lub Scali
- Podstawowa wiedza z zakresu przetwarzania danych
- Umiejętność pracy w środowisku Unix/Linux
Czego nauczysz się na szkoleniu Apache Spark?
- Jak zainstalować i skonfigurować Apache Spark w różnych środowiskach
- Jak przetwarzać i analizować dane z użyciem RDD, DataFrame i Spark SQL
- Jak optymalizować zapytania i zarządzać zasobami w Apache Spark
- Jak wdrożyć aplikacje Apache Spark w środowisku produkcyjnym
Program szkolenia
Dzień 1: Wprowadzenie do Apache Spark i podstawy przetwarzania danych
Wprowadzenie do Apache Spark
- Historia i rozwój Apache Spark
- Architektura i główne komponenty (RDD, DataFrame, Spark SQL)
Instalacja i konfiguracja środowiska
- Instalacja Apache Spark i zależności
- Konfiguracja środowiska pracy (Standalone, Hadoop, AWS)
Podstawy przetwarzania danych w Apache Spark
- Praca z plikami: JSON, CSV, XML, TXT, Parquet, AVRO
- Omówienie czym jest Transformacja, a Akcja (Lazy evaulation)
Dzień 2: Zaawansowane techniki i praktyczne zastosowania
Zaawansowane przetwarzanie danych z użyciem DataFrame i Spark SQL
- Tworzenie i zarządzanie DataFrame
- Użycie Spark SQL do zapytań na dużych zbiorach danych
Transformacja danych
- Sposoby sortowania, grupowania i filtrowania danych
- Wykonywanie transformacji danych poprzez funkcje map, flatMap, UDF
- Funkcje okna/analityczne
Warsztat: Przetwarzanie i analiza danych z użyciem DataFrame
- Implementacja operacji na DataFrame i zapytań SQL
- Analiza dużych zbiorów danych z użyciem Spark SQL
Optymalizacja i tunning wydajności
- Techniki optymalizacji zapytań i działania Spark
- Zarządzanie pamięcią i rozdzielanie zasobów
- Partycjonowanie i zapis danych
Deployowanie aplikacji Apache Spark
- Przygotowanie i eksportowanie aplikacji Spark
- Wdrożenie aplikacji w środowisku produkcyjnym
Pobierz program
Pobierz szczegółowy program w PDF, żeby dowiedzieć się więcej o godzinach i tematach zajęć.