fbpx
Bez kategorii

Nauka analizy danych – część 2

To jest kontynuacja pierwszej części artykułu o analizie danych. W poprzednim materiale wyjaśniliśmy podstawowe pojęcia, różnice między analizą danych, BI i Data Science oraz umiejętności potrzebne w pracy analityka. Teraz przechodzimy krok dalej – pokażemy najpopularniejsze narzędzia, języki i biblioteki oraz praktyczne etapy analizy, od czyszczenia i łączenia danych aż po wyciąganie wniosków biznesowych.

Jakie są najpopularniejsze i najbardziej przydatne narzędzia w analizie danych?

  • Google Data Studio / Looker Studio – darmowe narzędzie do wizualizacji danych online.
  • Microsoft Excel / Google Sheets – szybkie analizy, tabele przestawne, proste wizualizacje.
  • SQL – podstawowy język do pracy z bazami danych.
  • Python (Matplotlib, Seaborn, Plotly) – kompleksowa analiza, obróbka i wizualizacja danych.
  • Pandas – kluczowa biblioteka w Pythonie do pracy z danymi tabelarycznymi (filtrowanie, grupowanie, agregacje).
  • Power BI – interaktywne dashboardy i raporty biznesowe.
  • Tableau – zaawansowana wizualizacja danych i BI.

Jaki jest najpopularniejszy język programowania używany w analizie danych?

Jest wybierany, ponieważ ma bogaty ekosystem bibliotek (m.in. Pandas, NumPy, matplotlib, seaborn, scikit-learn), jest prosty w nauce i wszechstronny – sprawdza się zarówno w analizie danych, jak i w uczeniu maszynowym (Machine Learning) czy automatyzacji.

Istotny jest też SQL służy do pobierania, zapisywania, modyfikowania i analizowania danych w bazach danych. To podstawa pracy z danymi.

Jakie są najważniejsze biblioteki Pythona do analizy danych?

  • Pandas – do pracy z tabelami i danymi w formacie podobnym do Excela (.csv),
  • NumPy – do obliczeń numerycznych i pracy z macierzami,
  • Matplotlib, Seaborn, Plotly – do wizualizacji danych,
  • Scikit-learn – do uczenia maszynowego (Machine Learning)i modelowania danych,
  • SciPy – do zaawansowanych obliczeń statystycznych i matematycznych.

Jakie są etapy analizy danych?

  1. Zdefiniowanie problemu – określenie celu analizy i pytań, na które chcemy odpowiedzieć.
  2. Zbieranie danych – pozyskanie danych z baz, plików, API lub innych źródeł.
  3. Czyszczenie danych – usuwanie braków, duplikatów, błędów i standaryzacja formatu danych.
  4. Eksploracja danych (EDA – Exploratory Data Analysis) – wstępne statystyki i wizualizacje w celu poznania struktury i zależności.
  5. Analiza – zastosowanie metod statystycznych, modeli Machine Learning lub technik BI.
  6. Wizualizacja i interpretacja wyników – przedstawienie wniosków w formie raportów, wykresów, dashboardów.
  7. Prezentacja i wdrożenie rekomendacji – przekazanie wyników i rekomendacji, a następnie ich wdrożenie.

Jakie są najczęstsze błędy w analizie danych i jak ich unikać?

Brak czyszczenia danych – uwzględnienie skutków korzystania z duplikatów, braków, błędnych wartości oraz brak standaryzacji formatu prowadzi do fałszywych wniosków. Zaczynaj od eksploracji i czyszczenia danych.

Brak kontekstu biznesowego – analiza skupiona tylko na liczbach, bez zrozumienia celu, kontekstu i dziedziny problemu. Przed analizą należy ustalić pytania biznesowe i kluczowe wskaźniki.

Mylenie korelacji z przyczynowością – fakt, że dwie zmienne są powiązane, nie oznacza, że jedna powoduje drugą. Weryfikuj hipotezy dodatkowymi testami statystycznymi i wiedzą domenową.

Błędne wizualizacje – źle dobrane wykresy mogą wprowadzać w błąd. Upewnij się, że wizualizacje są przejrzyste i zrozumiałe. Dopasuj wykres do rodzaju danych.

Ignorowanie jakości źródeł danych – analiza na niepełnych lub nieaktualnych danych. Zawsze sprawdzaj źródło, zakres i aktualność danych.

Jakie są najlepsze narzędzia do wizualizacji danych? 

Power BI – popularne w biznesie, zintegrowane z ekosystemem Microsoft, pozwala na budowanie dynamicznych raportów dostępnych online. Łatwe do wdrożenia w firmach.

Tableau – rozbudowane narzędzie BI, świetne do interaktywnych dashboardów.

Google Data Studio / Looker Studio – darmowe, proste w obsłudze, dobre do raportów online.

Python (Matplotlib, Seaborn, Plotly) – elastyczne biblioteki do tworzenia wykresów i analiz w Jupyter Notebookach.

W biznesie dla raportów menedżerskich najczęściej wybiera się Power BI lub Tableau, a dla analityków i data scientistów – Python (Pandas + Matplotlib/Seaborn/Plotly)

Jak czyścić dane i radzić sobie z brakującymi wartościami lub duplikatami?

Brakujące wartości (NaN / NULL):

  • Usuń wiersze lub kolumny z dużą liczbą braków (jeśli nie są istotne).
  • Uzupełnij brakujące wartości średnią, medianą, dominującą wartością lub metodą forward/backward fill.
  • W przypadku danych biznesowych – uzupełnij je wiedzą domenową (np. brak daty = „nie dotyczy”).

Duplikaty:

  • Usuń identyczne wiersze (drop_duplicates w Pandas), to tzw. deduplikacja
  • Zdefiniuj unikalne klucze (np. ID klienta) i usuń powtarzające się wpisy
  • Jeśli dane różnią się częściowo – ustal reguły, które wersje zachować (np. najnowszą)

Błędne wartości:

  • Sprawdź, czy dane mieszczą się w spodziewanych zakresach (np. wiek 250 lat dla osoby oznacza błąd)
  • Popraw literówki w kategoriach (np. „Polska” vs „polska”).

W Pythonie (Pandas) istnieją gotowe funkcje, np. isnull(), fillna(), dropna(), drop_duplicates(), a w Excelu/Power BI są dostępne filtry i transformacje (Power Query).

Jak łączyć dane z różnych źródeł?

Pliki – łączenie CSV, Excela czy JSON można zrealizować wykorzystując wspólne kolumny (np. ID klienta).

W bazach danych (SQL) – używanie JOIN-ów (INNER JOIN, LEFT JOIN, RIGHT JOIN, FULL JOIN) do łączenia danych z tabel

Python (Pandas) – można wykorzystać funkcje merge(), concat() lub join() do łączenia danych na podstawie kluczy lub indeksów

Power BI, Tableau – tworzenie relacji między tabelami i źródłami danych.

ETL/ELT – przy większych projektach używa się narzędzi takich jak Apache Airflow, Talend czy dbt do automatycznego łączenia danych z wielu systemów (CRM, ERP, marketing, logi).

Ogólne zasady:

  • zawsze upewnij się, że masz wspólne klucze (np. customer_id),
  • sprawdź spójność i format danych (np. daty, wielkość liter),
  • unikaj duplikatów po połączeniu

Jak przekształcić wyniki analizy danych na wnioski i rekomendacje biznesowe?

Zrozum kontekst biznesowy – przed analizą określ, na jakie pytania chcesz odpowiedzieć (np. „Dlaczego spada sprzedaż w regionie X?”).

Przełóż wyniki liczbowe na język biznesu – zamiast pisać „średnia konwersja wyniosła 3,4%”, powiedz: „konwersja spadła o 20%, co oznacza mniejsze przychody o ok. 50 tys. zł miesięcznie”.

Wybierz najważniejsze wnioski – wyciągnij 2–3 kluczowe spostrzeżenia, zamiast zasypywać odbiorcę ciągiem liczb, wykresami i tabelami

Dodaj rekomendacje – np. „Należy skupić działania marketingowe na kampanii A, bo ma o 40% wyższą skuteczność niż kampania B” albo „Należy usprawnić proces obsługi klienta, bo 60% reklamacji dotyczy właśnie problemów z obsługą klienta”.

Przedstaw predykcje i warianty działań – jeśli to możliwe, pokaż scenariusze „co jeśli” (np. jakie uzyskamy wyniki, jeśli zwiększymy budżet na reklamę o 10%).

Ogólna zasada: Dane → Wniosek → Rekomendacja → Potencjalny efekt biznesowy.

Przykład:

Analiza:

  • Średnia konwersja w sklepie online spadła z 3,2% do 2,1% w ostatnich 3 miesiącach.
  • narzędzie do analizy WWW pokazało, że czas ładowania strony wzrósł średnio o 1,4 sekundy po wprowadzeniu dużych grafik na stronie.

Wnioski:

  • Spadek konwersji jest związany głównie z wolniejszym działaniem strony. 

Rekomendacje:

  • usunięcie dużych i grafik lub ich optymalizacja
  • przeprowadzenie ponownych testów i przywrócenie poprzedniego (krótszego) czasu ładowania strony 

Potencjalny efekt:

  • Poprawa szybkości strony powinna podnieść konwersję o ~1,1 pp, co oznacza +120 tys. zł przychodu rocznie

Sprawdź Kurs Analityk Danych + AI

Jeżeli chcesz nauczyć się lub podnieść kompetencje w zakresie Analizy Danych to sprawdź nasz kurs Analityk Danych + AI

Back to top button