Powszechnie dostępne dane

Dzisiaj w zasadzie miał pojawić się wpis w nieco innym temacie, miał on być trochę bardziej ZAAWANSOWANY 🙂 a dokładnie adresować obszar zaawansowanej analityki. W ostatniej  jednak chwili, trochę zainspirowany pytaniem, które przywędrowało do mnie na LinkedIn od @kaluzaaa stwierdziłem,że być może innym również takie informacje mogą się przydać. Także Łukasz mam nadzieję, że znajdziesz tutaj kilka przydatnych informacji :), podobnie jak i pozostali odwiedzający ten blog.

Duża część mojej codziennej pracy to różnego rodzaju prezentacje, warsztaty, czy też aktywności PoC (proof of concept), w trakcie których budowane są różnego rodzaju raporty, prowadzone są analizy czy też powstają prostsze lub bardziej złożone modele danych. Bardzo często do realizowanych aktywności potrzebuję różnych danych. Oczywiście mógłbym w zasadzie wszystko zrealizować korzystając ze znanych chyba wszystkim baz AdventureWorks, pubs lub Northwind – staram się  tego jednak nie robć z kilku powodów:

  • bazy nie są dopasowane do scenariuszy, które realizuje (szczególnie w kontekście wolumenu danych, modelu)
  • staram się zawsze używać danych możliwie zbliżonych do obszaru Klienta,z którym aktualnie współpracuję
  • potrzebuję zróżnicowanych postaci danych
  • po prostu znudziły mi się już trochę te bazy 🙂

Skąd zatem biorę dane do takich PoC, warsztatów czy prezentacji:

  • jeśli mam chwilę(czyli dość rzadko 🙂 ) i dużo chęci (czyli bardzo w zasadzie w 100% przypadków 🙂 ) piszę własny generator posiłkując się wiedzą dot. obszaru dla którego przygotowuję rozwiązanie, dla przykładu ostatnio, aby przygotować przykładowe rozwiązanie dla obsługi obszaru Contact Center napisałem własny generator interakcji klient-konsultant z uwzględnieniem różnych kanałów komunikacji, zdarzeń, regionów itp.
  • zdarza się, że Klient dzieli się ze mną danymi, które mogą być wykorzystane np. odpowiednio zanonimizowanymi, bądź testowymi, a czasami nawet rzeczywistymi (jak tylko uda się przejść przez wszystkie wymagania umów NDA )
  • najczęściej jednak szukam możliwości pozyskania danych z powszechnie dostępnego źródła.

Wbrew pozorom, pomimo, że otaczają nas miliony danych jednostkowych (do 2020 roku na każdą osobę na świecie przypadać będzie około 5,200 GB – wg szacunków IDC), dość trudno jest dotrzeć do poszukiwanych  danych stosunkowo szybko. Zapytasz dlaczego? Co za problem pobrać zestaw danych kilku milionów rekordów. W zasadzie żaden problem, najczęściej chodzi jednak, aby dane tworzyły pewien zestaw danych logicznie ze sobą powiązanych, pochodziły z wiarygodnego źródła, a najlepiej były danymi rzeczywistymi (unikniemy wtedy wielu niespodzianek, jak np. powtarzalności czy też statystycznie powtarzalnego rozkładu danych). Zwyczajnie potrzebuję danych rzeczywistych.

Całe szczęście jest jeszcze kilka miejsc w Internecie, sprawdzonych, dostępnych i zaufanych, z których można pozyskać na prawdę interesujące i wartościowe dane do wszelkiego rodzaju analiz, raportów czy zwyczajnych zabaw z danymi. Nie zdradzę wszystkich miejsc ( bo nawet pewnie ich wszystkich nie znam). Podzielę się natomiast kilkoma dość interesującymi linkami. Poniżej moje TOP 5 miejsca do poszukiwania danych

  1. NYC Opendata to jedno z najciekawszych miejsc, które można odwiedzić w poszukiwanych danych do raportów i analiz.Od danych biznesowych, przez edukację, środowisko, aż po szpitale i inne obszary administracji publicznej. ok 1500 różnych zestawów danych
  2. Dane dot. taksówek w NYC – podzbiór danych dot. New York City. Informacje o kosztach podróży, wartości napiwków, długości przejechanego odcinka, strefach. Osobiście bardzo mi się te dane podobają również ze względu na ich wolumen. Można odwiedzić oficjalną stronę TLC Trip Record Data  lub pobrać pliki bezpośrednio np. stąd. (@kaluzaaa  ten polecam ze względu na format, o który pytałeś)
  3. Polski akcent to portal Dane Publiczne – warto zaglądać, ze względu na pochodzenie. Czasami problem z formatami danych (nie wiem jak Ty, ale ja nie za bardzo do analiz lubię używać danych w formacie pdf 🙂 )
  4. Dane pochodzące z administracji publicznej, ale również szpitali – tym razem z UK
  5. Federal Aviation Administration – ciekawe dane m.in. lotnisk, samolotów, lotów – trzeba trochę się naszukać, czasami format danych zaskakuje, ale udaje się coś ciekawego wyciągnąć.

A Ty znasz jakieś fajne miejsce z interesującymi zbiorami danych ? Daj znać w komentarzach, chętnie skorzystam, a może podzielę się jakimś dodatkowym źródłem, którego tutaj nie uwzględniłem :).

2 Replies to “Powszechnie dostępne dane”

Comments are closed.