Co robić gdy nauka zawodzi…

Pod koniec września opublikowałem serię wpisów – W zasadzie to po co mi data scientist ( Cześć I, Część II, Część III. Po publikacji pojawił się nawet komentarz: „A czy nie jest tak, że Data Scientist to nowe określenie na stare zawody? Przecież mamy ekonometryków, statystyków, matematyków…🙂„. Trochę rzeczywiście tak jest, że Data Scientist to rola, którą nazwaliśmy na nowo przytoczone role. Jednak w mojej ocenie, co zresztą podkreślałem w serii  W zasadzie to po co mi data scientist, są to role, które bardzo umiejętnie łączą wiedzę statystyczną, matematyczną czy ekonometryczną z techniczną umiejętnością posługiwania się językami zapytań czy programowania, ale również doskonale rozumieją biznes. Potrafią rozwiązywać problemy danego wertykału. Należy jednak zwrócić szczególną uwagę na to jak pracują Data Scientist i czy przypadkiem mimo swojej ogromnej wiedzy zawsze możemy na nich polegać w 100%. Postawię zatem pytanie: Dlaczego projekt w obszarze data science może się nie udać:

1.Niewłaściwe podejście do rozwiązania problemu

W większości przypadków w projekcie data science dążymy do optymalizacji, uzyskania wyższego zysku, bardziej dokładnej estymacji rentowności, przewidywania potrzeb i itd… jednak nie zawsze taka optymalizacja jest możliwa poprzez analizę części czynników wpływających na końcowy wynik , a musimy pamiętać, że na potrzeby jakichkolwiek eksperymentów mimo wszystko musimy wskazać pewną skończoną liczbę atrybutów. Czasami wręcz ilość elementów mających wpływ na wynik jest tak duża, a relacje pomiędzy elementami tak złożone, że w przypadku chęci zastosowania typowego podejścia naukowego prowadziłoby to do olbrzymiej ilości permutacji, które należałoby testować. Warto zwrócić uwagę, aby nie popaść w angażowanie olbrzymich zasobów wykwalifikowanych ludzi, w zgłębianie zagadnienia, które nie będzie miało zbyt dużego przełożenia na wartość biznesową. Być może lepiej ograniczyć zakres potencjalnych, zastosować podejście naukowe na nieco mniejszą skalę, dla przykładu: zwiększenie konsumpcji dzięki lepszej rekomendacji (opracowanie silnika rekomendacji), zwiększenie konwersji poprzez zmianę grupy docelowej kampanii.

2. Niedopasowanie technologii, ludzi i zagadnień do rozwiązania

Ilość Data Science rośnie, ilość wysokiej klasy inżynierów zwiększa się jeszcze szybciej. Równolegle z ludźmi przybywa również rozwiązań technologicznych. Warto zwrócić uwagę na dopasowanie osób do dostępnych na rynku technologii, być może osoby, którym powierzamy projekt specjalizują się tylko w jednej, konkretnej technologii, podczas gdy na potrzeby projektu warto wykorzystać inne, dostępne rozwiązania. Dla przykładu bardzo popularne i często słyszane klastry Hadoop – bardzo dobre rozwiązanie dla przetwarzania wsadowego/batch/, jednak zupełnie nie pasujące do potrzeb związanych z analityką w czasie rzeczywistym. Podobnie rozwiązania NoSQL – idealne wszędzie tam, gdzie potrzebna jest elastyczność struktury, podczas gdy bazy relacyjne zapewniają nieporównywalną wydajność przy pracy z danymi ustrukturyzowanymi i znormalizowanymi. Nie dopasowanie technologiczne oraz brak wiedzy w ramach zespołu, znacząco utrudnia realizację wymagań biznesowych

3. Integralność danych

Niezależnie od tego jak dobry zespół pozyskamy, jak dużą wiedzę w zakresie możliwych do zastosowania technologii będzie miał zespół, a także ja szeroką wiedzą biznesowe dysponują poszczególne osoby, wszystko co zostanie zaplanowane i wykonane nie powiedzie się bez spójnych, czystych i dostępnych danych. Kluczowym elementem jest identyfikacja danych oraz weryfikacja ich kompletności oraz spójności. Wykorzystanie niewłaściwych, bądź „brudnych” danych do trenowania modelu doprowadzi do bardzo niskiego poziomu jego skuteczności. Brak spójności w strukturach wykorzystywanych danych prowadzić będzie to zmian w modelach danych i wymuszać będzie ponowne opracowanie docelowych modeli, stosowanych w przygotowaniu i testowania poszczególnych rozwiązań. Zatem pierwszy krok – zweryfikuj swoje dane, co o nich wiesz, jak możesz podnieść ich jakość.