PySpark w praktyce: przetwarzanie dużych zbiorów danych

Poziom

Średniozaawansowany

Czas

4 godziny

Termin

Indywidualnie

Cena

Indywidualnie

PySpark w praktyce: przetwarzanie dużych zbiorów danych

Opis PySpark umożliwia przetwarzanie ogromnych zbiorów danych w środowisku rozproszonym. Webinar pokazuje, jak budować pipeline’y danych oraz analizować dane w środowisku Spark przy użyciu języka Python.

Dla kogo jest ten webinar?
  • logo infoshare Data engineers
  • logo infoshare Data analysts pracujący z big data
  • logo infoshare Software engineers pracujący z danymi
Czego nauczysz się na tym webinarze?
  • logo infoshare jak działa architektura Spark
  • logo infoshare jak przetwarzać dane w PySpark
  • logo infoshare jak budować pipeline’y danych
  • logo infoshare jak optymalizować operacje na dużych datasetach

Agenda webinaru

  • Architektura Sparka: Driver, Executors i partycjonowanie danych
  • Spark DataFrame API: transformacje, akcje i leniwa ewaluacja
  • Praca z dużymi zbiorami: techniki Broadcast Join i unikanie Data Skew
  • Przetwarzanie strumieniowe: wprowadzenie do Structured Streaming
  • Optymalizacja: praca ze Spark UI i dostrajanie parametrów wykonania
  • Integracja z Pythonem: UDFy vs natywne funkcje Sparka
  • Q&A

Skontaktuj sie z nami

zorganizujemy dla Ciebie szkolenie dopasowane do Twoich potrzeb

Przemysław Wołosz

Key Account Manager

przemyslaw.wolosz@infoShareAcademy.com

    Administratorem danych osobowych jest InfoShare Academy Sp. z o.o. z siedzibą w Gdańsku, al. Grunwaldzka 427B, 80-309 Gdańsk, KRS: 0000531749, NIP: 5842742213. Dane osobowe przetwarzane są zgodnie z klauzulą informacyjną.