Big Data – Hadoop
zapytaj o cenę
8h
Kategoria: Back-end
Na praktycznym warsztacie z platformy Hadoop poznasz architekturę tego systemu oraz dowiesz się, jak dostarczyć do niego dane z różnych źródeł. Będziesz w stanie poddać dane niskopoziomowej analizie za pomocą zadań MapReduce lub wysokopoziomowej analizie za pomocą zapytań SQL-owych na Hive. Dowiesz się, jak przechowywać dane, oszczędzając przy tym zasoby oraz jak definiować i monitorować uruchamiający się regularnie przepływ danych.
Profil uczestnika
Warsztat z platformy Hadoop dedykowany jest dla wszystkich programistów oraz inżynierów chcących usprawnić proces przetwarzania danych w firmie. Wymagana jest znajomość podstaw Javy.
Program warsztatu
Dostarczanie danych na platformę
- zapoznanie z komendami HDFS
- Flume (NRT)
- Sqoop (RDBMS)
Operacje na danych
- MapReduce, Hadoop Streaming
- konwersja, kompresja, deduplikacja, denormalizacja, partycjonowanie
Praca z Hive
- tworzenie tabel z danych na HDFS
- agregacje, statystyki, filtrowanie, sortowanie, joiny
- utworzenie i wykorzystanie własnych funkcji UDF
- formaty danych, konwersja
Przepływy Oozie
- MapReduce, zapytania Hive, ładowanie sqoop, polecenia shellowe
- łączenie ze sobą akcji