TERMIN
Ustalamy indywidualnie
CZAS
32h / 4 dni
CENA
Ustalamy indywidualnie
PySpark to biblioteka dla Apache Spark, która umożliwia tworzenie i uruchamianie zadań rozproszonych na klastrach w języku Python. PySpark zapewnia interfejs API do pracy z danymi rozproszonymi przez Spark, a także dostęp do wszystkich funkcji Spark, takich jak mapowanie, agregacja, filtrowanie i grupowanie danych. PySpark jest licznie wykorzystywany w Big Data, analizie danych i uczeniu maszynowym.
Szkolenie przeznaczone jest dla:
dla programistów ze znajomością języka Python
dla analityków ze znajomością języka Python
dla osób które chcą poznać jedno z najpopularniejszych narzędzi do przetwarzania danych
dla Data scientist
Dowiesz się jakie jest zastosowanie Big Data w organizacji.
Poznasz podstawowe zagadnienie związane z pracą na danych w Apache Spark.
Nauczysz się Spark Project Core i Spark SQL.
Dowiesz się jak wykorzystać Spark M w praktycznych zastosowaniach.
Dzień: 1
Moduł 1 – Architektura Apache Spark – co jest czym w organizacji, miejsce w rzeczywistości „Big Data”.
Moduł 2 – RDDs – podstawowe zagadnienie związane z pracą na danych w Apache Spark
Moduł 3 – Różnice między składnią Python-a a PySparka; RDD a Pandas DataFrame
Dzień: 2
Moduł 4 – Zmienne, partycjonowanie oraz inne zagadnienia Spark Project Core
Moduł 5 – Spark SQL (praca na DF, składnia, schematy, agregacje etc.)
Moduł 6 – Spark ML
Dzień: 3
Moduł 7 – Prototypowanie
Moduł 8 – Uruchamianie i zarządzanie zadaniami w klastrze
Moduł 9 – Testowanie procesów
Dzień: 4
Moduł 10 – Optymalizacja i konfiguracja zadań
Moduł 11 – Spark Structured Streaming
Moduł 12 – Sesja Q&A