PySpark w praktyce: przetwarzanie dużych zbiorów danych

Poziom

Średniozaawansowany

Czas

4 godziny

Termin

Indywidualnie

Cena

Indywidualnie

PySpark w praktyce: przetwarzanie dużych zbiorów danych

Opis PySpark umożliwia przetwarzanie ogromnych zbiorów danych w środowisku rozproszonym. Webinar pokazuje, jak budować pipeline’y danych oraz analizować dane w środowisku Spark przy użyciu języka Python.

Dla kogo jest ten webinar?

Data engineers
Data analysts pracujący z big data
Software engineers pracujący z danymi

Czego nauczysz się na tym webinarze?

jak działa architektura Spark
jak przetwarzać dane w PySpark
jak budować pipeline’y danych
jak optymalizować operacje na dużych datasetach

Agenda webinaru

Architektura Sparka: Driver, Executors i partycjonowanie danych
Spark DataFrame API: transformacje, akcje i leniwa ewaluacja
Praca z dużymi zbiorami: techniki Broadcast Join i unikanie Data Skew
Przetwarzanie strumieniowe: wprowadzenie do Structured Streaming
Optymalizacja: praca ze Spark UI i dostrajanie parametrów wykonania
Integracja z Pythonem: UDFy vs natywne funkcje Sparka
Q&A

Skontaktuj sie z nami

zorganizujemy dla Ciebie szkolenie dopasowane do Twoich potrzeb

Przemysław Wołosz

Key Account Manager

+48 730 830 801

przemyslaw.wolosz@infoShareAcademy.com