PySpark w praktyce: przetwarzanie dużych zbiorów danych
Poziom
ŚredniozaawansowanyCzas
4 godzinyTermin
IndywidualnieCena
IndywidualniePySpark w praktyce: przetwarzanie dużych zbiorów danych
Opis PySpark umożliwia przetwarzanie ogromnych zbiorów danych w środowisku rozproszonym. Webinar pokazuje, jak budować pipeline’y danych oraz analizować dane w środowisku Spark przy użyciu języka Python.
Dla kogo jest ten webinar?
Data engineers
Data analysts pracujący z big data
Software engineers pracujący z danymi
Czego nauczysz się na tym webinarze?
jak działa architektura Spark
jak przetwarzać dane w PySpark
jak budować pipeline’y danych
jak optymalizować operacje na dużych datasetach
Agenda webinaru
- Architektura Sparka: Driver, Executors i partycjonowanie danych
- Spark DataFrame API: transformacje, akcje i leniwa ewaluacja
- Praca z dużymi zbiorami: techniki Broadcast Join i unikanie Data Skew
- Przetwarzanie strumieniowe: wprowadzenie do Structured Streaming
- Optymalizacja: praca ze Spark UI i dostrajanie parametrów wykonania
- Integracja z Pythonem: UDFy vs natywne funkcje Sparka
- Q&A