Poziom

Podstawowy

Czas

16h / 2 dni

Termin

Indywidualnie

Cena

Indywidualnie

Szkolenie z Apache Spark

Szkolenie Apache Spark to intensywny, dwudniowy kurs, skoncentrowany na praktycznym zastosowaniu tego popularnego frameworka do przetwarzania dużych zbiorów danych. Program szkolenia jest zaprojektowany w taki sposób, aby 80% czasu było poświęcone na praktyczne warsztaty, a 20% na teorię. Uczestnicy zdobędą solidne podstawy teoretyczne oraz praktyczne umiejętności w korzystaniu z Apache Spark, pracując na rzeczywistych danych i rozwiązując praktyczne problemy.

Dla kogo jest szkolenie z Apache Spark?
  • logo infoshare Programistów i inżynierów danych, którzy chcą poszerzyć swoje umiejętności o Apache Spark
  • logo infoshare Data scientistów i analityków danych, pragnących przetwarzać duże zbiory danych w efektywny sposób
  • logo infoshare Specjalistów IT i big data, którzy chcą wykorzystać Apache Spark w swoich projektach

Wymagane umiejętności technologiczne:

  • Znajomość podstaw programowania w Pythonie lub Scali
  • Podstawowa wiedza z zakresu przetwarzania danych
  • Umiejętność pracy w środowisku Unix/Linux

Czego nauczysz się na szkoleniu Apache Spark?

  • Jak zainstalować i skonfigurować Apache Spark w różnych środowiskach
  • Jak przetwarzać i analizować dane z użyciem RDD, DataFrame i Spark SQL
  • Jak optymalizować zapytania i zarządzać zasobami w Apache Spark
  • Jak wdrożyć aplikacje Apache Spark w środowisku produkcyjnym

Program szkolenia

Dzień 1: Wprowadzenie do Apache Spark i podstawy przetwarzania danych

 

Wprowadzenie do Apache Spark

  • Historia i rozwój Apache Spark
  • Architektura i główne komponenty (RDD, DataFrame, Spark SQL)

Instalacja i konfiguracja środowiska

  • Instalacja Apache Spark i zależności
  • Konfiguracja środowiska pracy (Standalone, Hadoop, AWS)

Podstawy przetwarzania danych w Apache Spark

  • Praca z plikami: JSON, CSV, XML, TXT, Parquet, AVRO
  • Omówienie czym jest Transformacja, a Akcja (Lazy evaulation)

Dzień 2: Zaawansowane techniki i praktyczne zastosowania

 

Zaawansowane przetwarzanie danych z użyciem DataFrame i Spark SQL

  • Tworzenie i zarządzanie DataFrame
  • Użycie Spark SQL do zapytań na dużych zbiorach danych

Transformacja danych

  • Sposoby sortowania, grupowania i filtrowania danych
  • Wykonywanie transformacji danych poprzez funkcje map, flatMap, UDF
  • Funkcje okna/analityczne

Warsztat: Przetwarzanie i analiza danych z użyciem DataFrame

  • Implementacja operacji na DataFrame i zapytań SQL
  • Analiza dużych zbiorów danych z użyciem Spark SQL

Optymalizacja i tunning wydajności

  • Techniki optymalizacji zapytań i działania Spark
  • Zarządzanie pamięcią i rozdzielanie zasobów
  • Partycjonowanie i zapis danych

Deployowanie aplikacji Apache Spark

  • Przygotowanie i eksportowanie aplikacji Spark
  • Wdrożenie aplikacji w środowisku produkcyjnym

Pobierz program

Pobierz szczegółowy program w PDF, żeby dowiedzieć się więcej o godzinach i tematach zajęć.

Skontaktuj sie z nami

zorganizujemy dla Ciebie szkolenie dopasowane do Twoich potrzeb

Przemysław Wołosz

Key Account Manager

przemyslaw.wolosz@infoShareAcademy.com

    Administratorem danych osobowych jest InfoShare Academy Sp. z o.o. z siedzibą w Gdańsku, al. Grunwaldzka 427B, 80-309 Gdańsk, KRS: 0000531749, NIP: 5842742121. Dane osobowe przetwarzane są zgodnie z klauzulą informacyjną.