Co robić gdy nauka zawodzi…
Pod koniec września opublikowałem serię wpisów – W zasadzie to po co mi data scientist ( Cześć I, Część II, Część III. Po publikacji pojawił się nawet komentarz: “A czy nie jest tak, że Data Scientist to nowe określenie na stare zawody? Przecież mamy ekonometryków, statystyków, matematyków…“. Trochę rzeczywiście tak jest, że Data Scientist to rola, którą nazwaliśmy na nowo przytoczone role. Jednak w mojej ocenie, co zresztą podkreślałem w serii W zasadzie to po co mi data scientist, są to role, które bardzo umiejętnie łączą wiedzę statystyczną, matematyczną czy ekonometryczną z techniczną umiejętnością posługiwania się językami zapytań czy programowania, ale również doskonale rozumieją biznes. Potrafią rozwiązywać problemy danego wertykału. Należy jednak zwrócić szczególną uwagę na to jak pracują Data Scientist i czy przypadkiem mimo swojej ogromnej wiedzy zawsze możemy na nich polegać w 100%. Postawię zatem pytanie: Dlaczego projekt w obszarze data science może się nie udać:
1.Niewłaściwe podejście do rozwiązania problemu
W większości przypadków w projekcie data science dążymy do optymalizacji, uzyskania wyższego zysku, bardziej dokładnej estymacji rentowności, przewidywania potrzeb i itd… jednak nie zawsze taka optymalizacja jest możliwa poprzez analizę części czynników wpływających na końcowy wynik , a musimy pamiętać, że na potrzeby jakichkolwiek eksperymentów mimo wszystko musimy wskazać pewną skończoną liczbę atrybutów. Czasami wręcz ilość elementów mających wpływ na wynik jest tak duża, a relacje pomiędzy elementami tak złożone, że w przypadku chęci zastosowania typowego podejścia naukowego prowadziłoby to do olbrzymiej ilości permutacji, które należałoby testować. Warto zwrócić uwagę, aby nie popaść w angażowanie olbrzymich zasobów wykwalifikowanych ludzi, w zgłębianie zagadnienia, które nie będzie miało zbyt dużego przełożenia na wartość biznesową. Być może lepiej ograniczyć zakres potencjalnych, zastosować podejście naukowe na nieco mniejszą skalę, dla przykładu: zwiększenie konsumpcji dzięki lepszej rekomendacji (opracowanie silnika rekomendacji), zwiększenie konwersji poprzez zmianę grupy docelowej kampanii.
2. Niedopasowanie technologii, ludzi i zagadnień do rozwiązania
Ilość Data Science rośnie, ilość wysokiej klasy inżynierów zwiększa się jeszcze szybciej. Równolegle z ludźmi przybywa również rozwiązań technologicznych. Warto zwrócić uwagę na dopasowanie osób do dostępnych na rynku technologii, być może osoby, którym powierzamy projekt specjalizują się tylko w jednej, konkretnej technologii, podczas gdy na potrzeby projektu warto wykorzystać inne, dostępne rozwiązania. Dla przykładu bardzo popularne i często słyszane klastry Hadoop – bardzo dobre rozwiązanie dla przetwarzania wsadowego/batch/, jednak zupełnie nie pasujące do potrzeb związanych z analityką w czasie rzeczywistym. Podobnie rozwiązania NoSQL – idealne wszędzie tam, gdzie potrzebna jest elastyczność struktury, podczas gdy bazy relacyjne zapewniają nieporównywalną wydajność przy pracy z danymi ustrukturyzowanymi i znormalizowanymi. Nie dopasowanie technologiczne oraz brak wiedzy w ramach zespołu, znacząco utrudnia realizację wymagań biznesowych
3. Integralność danych
Niezależnie od tego jak dobry zespół pozyskamy, jak dużą wiedzę w zakresie możliwych do zastosowania technologii będzie miał zespół, a także ja szeroką wiedzą biznesowe dysponują poszczególne osoby, wszystko co zostanie zaplanowane i wykonane nie powiedzie się bez spójnych, czystych i dostępnych danych. Kluczowym elementem jest identyfikacja danych oraz weryfikacja ich kompletności oraz spójności. Wykorzystanie niewłaściwych, bądź “brudnych” danych do trenowania modelu doprowadzi do bardzo niskiego poziomu jego skuteczności. Brak spójności w strukturach wykorzystywanych danych prowadzić będzie to zmian w modelach danych i wymuszać będzie ponowne opracowanie docelowych modeli, stosowanych w przygotowaniu i testowania poszczególnych rozwiązań. Zatem pierwszy krok – zweryfikuj swoje dane, co o nich wiesz, jak możesz podnieść ich jakość.