Data Science

Jak Netflix stał się firmą data-driven?

Netflix jak każda obecnie firma technologiczna walczy o to, aby przyciągnąć do siebie najlepszych specjalistów z branży. Jednym ze sposobów na pozyskanie najlepszych, jest uchylanie rąbka tajemnicy na temat tego, jak bardzo jest się zaawansowanym technologicznie. A Netflix ma co pokazywać. Zwykły użytkownik nie zdaje sobie sprawy z tego, ile się dzieje pod spodem kiedy wchodzi na platformę, aby obejrzeć swój ulubiony serial. A dzieje się sporo. Tak dużo, że to do opisania wszystkich mechanizmów wykorzystywania Data Science przy Netflixie potrzebny by był osobny portal, a nie artykuł. Dziś postaramy się wam przybliżyć najpopularniejsze rozwiązania sprawiające, że usługa Netflixa zdominowała rynek streamingu na świecie. 

(Nie)przyjemny problem 

Aby uświadomić sobie skale wyzwania, z jakim musi zmierzyć się inżynierowie z Netflixa, posłużymy się kilkoma danymi. Netflix ma obecnie ponad 200 mln płatnych subskrybentów na całym świecie. 74 mln w samych Stanach Zjednoczonych. Pozostali subskrybenci są rozrzuceni po całym świecie. Usługa dostępna jest w 190 krajach. W 2020 roku jeden użytkownik obejrzał średnio 3.2 godziny filmów dziennie! Każdego dnia jeden subskrybent pobiera z serwera Netflixa aż 9.6 GB danych! To niesamowite jak dobrze radzi sobie z tym zapotrzebowaniem platforma.

Każdy płacący użytkownik oczekuje wysokiej jakości obrazu oraz niezawodności platformy. Serwis przez lata wypracowywał model dystrybucji treści, który pozwala sprostać tak gigantycznemu zapotrzebowaniu. Zapotrzebowaniu, które będzie stale rosło. W przypadku tak dużych przedsięwzięć nie wystarczy dostawiać kolejne serwery. Netflix testował różne podejścia. Obecnie opiera swoją główną infrastrukturę o usługi cloudowe Amazona, czyli AWS. Każdy kolejny serwer kosztuje, a w przypadku Netflixa kwoty te są ogromne, więc skorzystanie z usług Amazona pozwala Netflixowi oszczędzić pieniądze i zwiększyć niezawodność swojej usługi.

Tak duża ilość danych, które są codziennie wysyłane i odbierane, to nie tylko koszt. To także coraz szerzej wykorzystywane narzędzie do ulepszania usługi na praktycznie każdym jej etapie. Co dzięki danym osiąga najpopularniejsza usługa streamingowa?

Oszczędność zasobów

Na początku rozwijania usługi, Netflix próbował rozwijać własne centra danych. Wraz ze wzrostem popularności i coraz szybszą ekspansją na nowe rynki postanowił wycofywać się z tego pomysłu. Głównym powodem były problemy z utrzymywaniem właśnej infrastruktury i fakt, że zamiast skupiać się na tym, co jest jego najmocniejszą stroną, czyli dostarczaniem treści wideo do użytkowników, musiał poświęcać znaczną część swoich zasobów na rozwijanie serwerowni. Netflix potrzebował pewniejszego rozwiązania. Dlatego w 2008 roku zaczął migrację na chmurę Amazona, którą firma ostatecznie zakończyła w 2015 roku. Netflix wprowadził coś jeszcze, aby usprawnić swoją usługę: Open Connect.

Open Connect to autorskie rozwiązanie Netflixa do dystrybuowania treści, znane pod skrótem CDN  (Content Delivery Network). Mniejsze maszyny serwerowe rozsiane są po całym świecie i pozwalają na szybki dostęp do najpopularniejszych treści. Algorytmy Netflixa przewidują, jakie konkretne treści będą potrzebne o określonym czasie i miejscu. Po kliknięciu przycisku play do użytkownika przesyłane jest wideo właśnie z Open Connect. To pozwala na skrócenie czasu przesyłu danych, ponieważ serwery Open Connect są bliżej użytkownika, niż wielkie centra obliczeniowe Amazona. Trzeba mieć świadomość, że Netflix wspiera tysiące urządzeń, na których może być wyświetlany film. Do tego dochodzą też inne zmienne takie jak różne jakości obrazu czy ścieżki dźwiękowe. Każdy materiał wideo dostępny na platformie musi być zatem przygotowany w kilku tysiącach wersji. Wszystkie wersje przetrzymywane są na AWS, jednak to Data Science decyduje, które lądują bezpośrednio w CDN i są przesyłane do użytkownika. Open Connect pełni rolę cachce – pamięci podręcznej.

Oczywiście Netflix to nie tylko przesyłanie filmów do użytkownika. W rzeczywistości to blisko 700 mikroserwisów (API), które składają się na całość usługi. Wszystkie API produkują dane, które potem firma wykorzystuje do ulepszania swojej usługi. Trzeba przyznać, że to imponująca droga, jaką przeszli od wysyłania płyt DVD pocztą. 

Zwiększenie zaangażowania

Jak każdej platformie, również i Netflixowi zależy na tym, aby spędzać na nim jak najwięcej czasu. Platforma dysponuje ogromną ilością danych na temat tego, co i kiedy użytkownik ogląda, dlatego może skutecznie rozwijać swoje algorytmy do systemów poleceń. Jednym z ciekawszych zabiegów, jakie stosuje, jest duża liczba okładek do filmów. Okładki są w różnych stylach i mają skusić użytkownika do obejrzenia konkretnego materiału. System uczy się jakie okładki preferujemy i kolejne produkcje otrzymują w stylu trafiających w nasz gust.

Netflix stara się wykorzystać to, że każdy z nas ma inne preferencje i próbuje je dopasować do pasującego wzorca. Wszystko po to, aby wyświetlać okładki, które oddziałują na nas najmocniej. Jeśli lubimy komedie romantyczne, a Netflix chce nas nakłonić do obejrzenia filmu sensacyjnego, to okładka filmu będzie starała się wykorzystywać wątek romantyczny z tego filmu. Jeśli wolimy komedie, to ten sam film zostanie zaprezentowany w inny sposób.

W niedalekiej przyszłości nie trudno sobie wyobrazić, że każdy z nas będzie dostawał od Netflixa indywidualną, wygenerowaną przez sztuczną inteligencję okładkę trafiającą dokładnie w nasze gusta.

195 mln wersji Netflixa

Jeden z szefów Netflixa powiedział kiedyś w wywiadzie, że platforma ma tyle wersji, ile jest użytkowników. Nawet jeśli to lekkie przejaskrawienie, to doskonale pokazuje sposób myślenia o testach w Netflixie. Sama firma ma specjalny system służący do ciągłego testowania platformy. Takim sposobem zamieniono system oceniania gwiazdkowego na dużo prostszy system like’ów.

Schemat platformy do testów

Netflix na wejściu pokazuje ok. 50 produkcji z tysięcy, którymi dysponuje w swojej bazie. Musi jakoś zdecydować, którymi produkcjami możesz być zainteresowany w danym momencie. 

Mając odpowiednią skalę, usługa może polecać premierowe odcinki ludziom, którzy są przez system zaklasyfikowani jako zainteresowani, zwiększając szanse na to, że dana produkcja im się spodoba. Dotarcie do odpowiedniej liczby ludzi, którym film przypadł do gustu, pozwala na zastosowanie darmowego marketingu, dzięki temu Netflix może prowadzić niestandardowe działania marketingowe z wykorzystaniem Data Science. Bo przecież hej, kto z nas nie sięgnął po jakiś serial przez polecenie?

Ale to nie wszystko. Netflix stara się stale analizować interakcje z serwisem oraz to jakie tytuły wybierasz. Analizuje, ile spędzasz czasu nad konkretnymi materiałami i w jakich godzinach po nie sięgasz. Ważne dla Netflixa jest także to, z jakich tytułów korzystasz na konkretnych urządzeniach. Bardzo często na telewizorze popołudniami będziesz miał ochotę na inną produkcję niż wieczorem w weekend na telefonie. Wszystkie te dane są analizowane przez algorytmy i na ich podstawie wyświetlane są wyniki.

And the oscar goes to… algorytmy 

Oczywiście to duża przesada, stwierdzając, że za sukcesem produkcji tworzonych przez Netflixa stoją algorytmy. Natomiast prawdą jest, że platforma wykorzystuje dane do minimalizowania ryzyka inwestycyjnego. Przykładowo przed inwestycją w konkretny serial analizują, czy film z aktorem A byłby chętniej oglądany przez ludzi niż z aktorem B i czy to w połączeniu z reżyserem C zwiększy prawdopodobieństwo na sukces. Taką analizę Netflix dokonał przy produkcji House of Cards. Netflix przeanalizował to jak często użytkownicy pauzowali, przewijali, cofali, powtarzali filmy z Kevinem Spacey oraz filmy w reżyserii Davida Finchera. Porównali to z innymi danymi i uzyskali odpowiedź, że ten duet zminimalizuje ryzyko inwestycyjne. Platforma analizuje także to, które sceny są chętniej oglądane i wykorzystuje tę wiedzę do tworzenia kolejnych hitowych produkcji.


Netflix to niewątpliwie firma data-driven, która swoją usługę opiera na mechanizmach Data Science. Dla laika tych mechanizmów nie widać na pierwszy rzut oka, ale wystarczy wejść na tech bloga Netflixa, aby uświadomić sobie, jak wielka jest to skala przedsięwzięcia. Skala, która daje ogromną przewagę rynkową.

Back to top button