O GDPR, zarządzaniu danymi i Azure…

Nie wiem czy GDPR mnie w ogóle dotyczy ?

Zostatnich ankiet przeprowadzonych przez fimę Forrester wynika, że 41% ankietowych firm nie jest pewne czy  wymagane przez GDPR standardy przetwarzania danych wymuszają na nich jakiekolwiek działania i czy ich w ogóle dotkną. To ciekawe, uwzględniając, że do maja 2018 od kiedy zaczną być w pełni respektowane wymagania stawiane przez GDPR pozostało już nie za dużo czasu.

4 główne prawa klientów w  świetle GDPR

1/ Prawo do dostępu/wglądu, czyli możliwość/prawo osoby wglądu w dane pozyskane przez daną firmę na jej temat
2/ Prawo do poprawy.modyfikacji danych w przypadku stwierdzenia niezgodności
3/ Prawo do “bycia zapomnianym”, które pozwala poprosić firmę o skasowanie wszystkich danych
4/ Prawo do przenoszenia danych

Moim celem, a w zasadzie celem tej publikacji nie jest interpretowanie powyższych praw. Chcę jedynie spojrzeć na nie przez pryzmat potencjalnych komplikacji związanych z zarządzaniem danymi w firmie. Weźmy prosty przykład, gdy klient chciałby poznać swoje dane przetwarzane przez określoną firmę:

  • Skąd pozyskać informacje w których bazach danych znajdują się te dane i które systemu należy odpytać, aby dostać się do danych?
  • W których systemach wprowadzić zmianę, gdy klient o taką zmianę poprosi?
  • Gdzie należy skasować dane klienta, gdy o to poprosi?
  • Jak “wydobyć” dane klienta, gdy ten poprosi o ich przygotowanie?
Dążąc do ideału

Patrząc z punktu widzenia osoby, która jakiś czas już zajmuje się bazami danych przychodzi mi do głowy kilka pomysłów. Pierwszy, nieodparcie prowadzi mnie do systemów MDM. Co to jest MDM?(Nie mylić z inicjatywą jaką jest Mieszkanie Dla Młodych) – posłużę się opisem ze strony jednej z firm działających intensywnie w obszarze danych

Master Data Management (zarządzanie danymi podstawowymi) to fundament inicjatyw zarządzania jakością danych. W dużym uproszczeniu można traktować MDM jako kręgosłup spinający całość procesów powstawania i wykorzystywania danych we wszystkich systemach IT – od ich powstawania do końcowej konsumpcji w systemach zarządczych. Ważne jest, aby nie zaszufladkować go jako kolejnego rozwiązania jedynie informatycznego. MDM to określenie procesów i odpowiedzialności w odniesieniu do danych, wpływających na rozumienie całości biznesu odzwierciedlonego w systemach IT.
Źródło: http://www.codec.pl/rozwiazania/business-intelligence/master-data-management/

Można tutaj wejść w szczegóły dot. MDM. Wystarczy jednak zapamiętać, że MDM pozwoliłby, a nawet wymusił zarządzanie danymi osób z poziomu centralnego, w sposób stosunkowo mocno zautomatyzowany. Wprowadzenie takiego systemu zarządzania danymi podstawowymi bez wątpienia uprościłoby kwestie związane chociażby z aktualizacją czy kasowaniem danych, jednak  jego wdrożenie w organizacji (bądąc zupełnie szczerym) nie jest ani proste, ani też stosunkowo szybkie do zrealizowania.

Czyli co mamy się poddać?

Nic z tych rzeczy, może po prostu warto zacząć od czegoś prostszego? Być może rozwiązania nie tak idealnego jak wspomniany MDM, ale pozwalającego sprawnie identyfikować systemy, w których określone dane są przetwarzane, uzyskać informacje o sposobie dostępu do źródła danych, czy zidentyfikować osobę, która za dany system odpowiada. Może warto zatem zacząć od inwentaryzacji i skatalogowania źródeł danych w organizacji? W tym miejscu warto sięgnąć do usługi, która funkcjonuje na platformie Azure od pewnego już czasu, a  nie jest zbyt popularna. Tymczasem w dobie wymagań stawianych przez GDPR może być bardzo cenną i wartościową dla organizacji usługą.

Azure Data Catalog

Usługa Azure Data Catalog to w pełni zarządzana usługa w chmurze, której użytkownicy mogą odnajdować potrzebne im źródła danych i zrozumieć użycie znalezionych przez nich źródeł danych.Za pomocą usługi Data Catalog każdy użytkownik może odnaleźć, zrozumieć i używać źródła danych. Usługa Data Catalog korzysta z modelu metadanych i adnotacji. Jest to centralne miejsce dla wszystkich użytkowników w organizacji, którzy dzielą się swoją wiedzą w celu  uporządkowania danych. Istotnym faktem jest to, że dane pozostają w istniejącej lokalizacji, ale kopia ich metadanych wraz z odwołaniem do lokalizacji źródła danych jest dodawana do usługi Data Catalog. Metadane są również indeksowane, aby można było je łatwo odnaleźć za pomocą wyszukiwania. 

Po zarejestrowaniu źródła danych, metadane źródła mogą zostać wzbogacone przez użytkownika, który dokonał rejestracji, lub przez innych(uprawnionych) użytkowników w organizacji. Użytkownicy mogą dodawać adnotacje do źródła danych, podając opisy, tagi lub inne metadane, takie jak dokumentacja i procesy służące do żądania dostępu do źródła danych. Te metadane opisowe uzupełniają metadane strukturalne (takie jak nazwy kolumn i typy danych) zarejestrowane ze źródła danych.

Jak dokonać rejestracji źródła danych?

Metadane można opublikować w katalogu za pomocą interfejsu API, przez dedykowane narzędzie rejestracji, lub ręcznie wprowadzając informacje bezpośrednio do usługi Azure Data Catalog  korzystając z portalu dla użytkowników.

Należy podkreślić, że Data Catalog pozwala na rejestrację wielu różnych typów źródeł danych (ponad 50). Pełną listę można zobaczyć pod tym adresem, wśród źródeł znajdują się bazy SQL Server, Teradata, Sybase, MongoDB, Cassandra, CosmosDB, HANA, PostgreSQL źródła ODATA, HDFS, ODBC

To musi kosztować…

I tutaj dość spora niespodzianka, na początek Azure Data Catalog można mieć w zasadzie za darmo…tak napiszę to jeszcze raz za darmo. Wersja podstawowa, która obsługuje do 5000 obiektów jest całkowicie bezpłatna dla nieograniczonej ilości użytkowników, w wersji standardowej pojawia się koszt per użytkownik, który też nie jest zbyt wygurowany.

Ceny Data Catalog

Nie przekonasz się jeśli nie przetestujesz

Osobiście uważam, że Data Catalog to jedna z ciekawszych usług, która może w znaczący sposób usprawnić dostęp do danych w organizacji, obsłużyć kwestie inwentaryzacji systemów, uzyskiwania informacji o sposobach dostępu do danych i wyszukiwania danych w organizacji. Typowy schemat wykorzystania Data Catalog przedstawia poniższy rysunek

Najprościej jeśli wypróbujesz Azure Data Catalog- jak już ustaliliśmy to nic nie kosztuje!