Data Science – chwilowy trend czy zawód przyszłości?

14.06.2019

Artykuł

Czy zastanawiałeś/aś się kiedyś, kiedy po raz pierwszy usłyszałeś/aś o tym całym “Data Science”? Jeśli masz wrażenie, że Big Data i Data Science to terminy, o których zaczęto mówić w ostatnich kilku latach, to masz rację. Czy jest to trend, który równie szybko zniknie jak się pojawił, czy jednak początek czegoś większego?

data_science
Źródło: Facebook (http://bit.ly/2XU0wCg)

Co to jest Data Science i kim jest ten/ta Data Scientist?

Według najpopularniejszej definicji Data Scientist to po prostu ktoś, kto ma większą wiedzę o statystyce niż przeciętny programista i większą wiedzę o programowaniu niż przeciętny statystyk.

Chociaż jako “data science” określano różne zawody i zjawiska od lat 80. to prawdziwy boom przyniósł opublikowany w 2012 roku (w czasopiśmie Harvard Business Review) artykuł pt. „Data Scientist: The Sexiest Job of the 21st Century”, w którym dwóch autorów, Thomas H. Davenport i D.J. Patil przekonują, bazując na własnych doświadczeniach w pracy w Facebooku i LinkedInie, że oto na naszych oczach narodził się nowy zawód, zawód przyszłości. Czym się charakteryzują? Jak sugerują autorzy: „Wyobraź sobie Data Scientistów jako hybrydę hackera danych, analityka, osoby o wysokich kompetencjach komunikacyjnych oraz zaufanego doradcy. To połączenie potężne – i rzadko spotykane. (…) Ich nagłe pojawienie się w wielu firmach odzwierciedla fakt, że wiele z nich obecnie mierzy się z danymi o takiej wielkości i takim zróżnicowaniu, jakie nigdy nie występowało do tej pory. (…)podstawową umiejętnością Data Scientistów jest programowanie.”

Myślisz o zmianie zawodu i wejściu do świata IT?
Sprawdź, nadchodzący kurs Data Science.

Trudno się nie zgodzić z autorami – produkowanie coraz większej liczby danych przez ludzi doprowadziło do sytuacji, w której dotychczasowe narzędzia przestały wystarczać. A nic nie wskazuje, by liczba ta miała zacząć maleć, co raczej potwierdza tezę, że zapotrzebowanie na Data Scientistów będzie rosło. Dodatkowo, moc obliczeniowa procesorów, mocniejsze karty graficzne i inne udoskonalenia technologiczne powodują, że nawet niewielkie firmy mogą sięgnąć po frukta Machine Learningu czy Głębokich Sieci Neuronowych i innych algorytmów wymagających sporych mocy obliczeniowych i bardzo dużych zbiorów danych.

Wszystko (a już zwłaszcza wyniki popularności wyszukiwania hasła “Data Scientist” w Google Trends) wskazuje na to, że to właśnie ten artykuł uruchomił lawinę popularności data science.

wykres z Google Trends mówiący o rosnącej popularności Data Science
Źródło: Google Trends

I nic nie wskazuje, by popularność ta miała zacząć maleć. Dodatkowo, nowe technologie sprawiają, że popyt na pracowników potrafiących pełnić rolę Data Scientistów będzie tylko rósł, razem z kolejnymi opracowanymi algorytmami, terabajtami danych (np. zbieranych przez coraz większą sieć urządzeń Internetu Rzeczy – IoT) i nowymi procesorami – na rynku zaczynają być dostępne dedykowane układy przeznaczone pod Machine Learning, jedno z głównych zadań Data Scientistów. Intel we współpracy z Facebookiem opracowują czipy dedykowane do intensywnej pracy z ML, mające konkurować z rozwiązaniami NVIDII, a Google podkupuje pracowników Intela i Quallcommu do badań nad własnymi czipami. Skutkiem ubocznym walki o prowadzenie w wyścigu technologicznym będą kolejne nowe algorytmy, czipy i technologie, które będą wymagały nowych pracowników potrafiących ich obsłużyć.

mem o data science
Źródło: Facebook (http://bit.ly/2XU0wCg)

Co o Data Science mówią liczby?

Współtworzony przez IBM i Burning Glass Technologies raport na temat rynku pracy Data Scientistów przedstawia konkretne liczby – do 2020 w USA liczba wakatów dla tych profesjonalistów zwiększy się o 15% w stosunku do 2015 roku.

raport the Quant Crruch
Źródło: Raport The Quant Crunch (https://www.ibm.com/downloads/cas/3RL3VXGA)

Autorzy alarmują: Istnieje rosnące zagrożenie, że podaż pracowników w obszarze Data Science and Analytics zostanie daleko w tyle za popytem na nich. (…) Jeśli nie zostaną podjęte działania, braki mogą się pogłębić, co może poskutkować zaprzepaszczeniem szans związanych z Big Data.

Podobne wnioski płyną z opublikowanego w zeszłym roku raportu Figure Eight: prawie 30% badanych respondentów deklaruje, że rekruterzy kontaktują się z nimi w sprawie nowych ofert kilka razy w tygodniu, a 50% – przynajmniej raz w tygodniu.
Co ciekawe, 55% deklaruje, że ich największą zmorą jest niska ilość danych lub ich kiepska jakość – trudno się dziwić.

Czy Data Scientistów zastąpią roboty?

A co jeśli sztuczna inteligencja zastąpi swoich twórców? Na stronach i forach dla programistów krąży widmo automatyzacji ich pracy i co jakiś czas ktoś zadaje pytanie czy koniec końców ktoś napisze program, który sam go zwolni. Słyszałem o projektach mających za zadanie zautomatyzować ich pracę – czy chodzi o analizę kodu, automatyczne tworzenie serwisów webowych albo naprawianie bugów. Ale czy AutoML (automatyczny machine learning) zastąpi pracę Data Scientistów? Już teraz rozwiązania Microsoftu (Azure Automated ML) czy Google (CloudML) pozwalają na trenowanie modeli machine learningowych bez użycia kodu. Czy oznacza to, że Data Scientiści znikną tak szybko jak się pojawili? Niekoniecznie, po pierwsze – obsługa programów nadal wymaga wiedzy na temat algorytmów i statystyki, trzeba przecież jakoś te automaty ustawić. Po drugie, tak jak każda praca, tak codzienność data scientistów również zawiera powtarzalne i mało ekscytujące zadania, które przeciętny analityk danych wydelegowałby do stażystów. Zgadzam się w zupełności z pracującą w Kaggle dr Rachael Tatman, że AutoML może przynieść Data Scientistom wiele korzyści, wyręczając ich z nudnych aktywności takich jak podkręcanie modeli.

cytat z twitter.com o Data Science i Machine Learning
Źródło: https://twitter.com/rctatman

Data Science – zawód przyszłości

Podsumowując, mimo że termin Data Science został spopularyzowany dopiero kilka lat temu, to wydaje się, że nie jest to chwilowa moda, a raczej odpowiedź branży analitycznej na pojawienie się zarówno ogromnych zbiorów danych jak i nowych algorytmów i technologii obliczeniowych. Raporty to potwierdzają – zapotrzebowanie na pracowników sprawnie poruszających się w świecie dużych danych, statystyki, programowania i uczenia maszynowego będzie coraz większe, a rozwiązania automatyzujące chyba raczej ucieszą analityków, czyniąc ich pracę przyjemniejszą.

Autor: Mikołaj Mierzejewski, trener infoShare Academy