biznes technologie innowacje
technologiczna strona biznesu
biznes technologie innowacje
najważniejsze informacje zebrane w jednym miejscu

Premium

Materiał dostępny tylko dla Subskrybentów

Nie masz subskrypcji? Dołącz do grona Subskrybentów i korzystaj bez ograniczeń!

Jesteś Subskrybentem? Zaloguj się

X
Następny artykuł dla ciebie
Wyświetl >>
Dane syntetyczne – duży potencjał dla biznesu

Dane syntetyczne – duży potencjał dla biznesu

Dostęp do danych bywa niekiedy utrudniony. Czasem jednak, do uczenia modeli AI czy pozyskiwania wiedzy, można wykorzystywać dane syntetyczne – sztucznie wygenerowane, ale podobne do rzeczywistych.

W organizacjach dane są podstawowym paliwem dla zaawansowanej analityki i uczenia maszynowego, ale naukowcy nie zawsze mają dostęp do potrzebnych informacji ze względu na formalności i obawy dotyczące prywatności. Obiecującym kierunkiem jest korzystanie z danych syntetycznych, które można udostępniać i wykorzystywać w sposób, w jaki nie można tego zrobić z danymi rzeczywistymi. Jednak nowe podejście nie jest pozbawione ryzyka i wad. Dlatego organizacje muszą uważnie analizować, gdzie i w jaki sposób inwestują swoje zasoby.

Czym są dane syntetyczne?

Dane syntetyczne są generowane przez algorytm sztucznej inteligencji, który został nauczony na prawdziwym zbiorze danych. Mają taką samą moc predykcyjną jak oryginalne, ale zastępują je, a nie ukrywają lub modyfikują. Celem jest odtworzenie właściwości statystycznych i wzorców istniejącego zbioru danych poprzez modelowanie i testowanie rozkładu prawdopodobieństwa. Zasadniczo algorytm tworzy nowe dane, które mają wszystkie cechy oryginalnych, co prowadzi do tych samych wyników. Ale najważniejsze jest to, że odtworzenie oryginalnych danych (np. informacji umożliwiających identyfikację osób) jest praktycznie niemożliwe ani z algorytmu, ani ze stworzonych przez niego danych syntetycznych.

Dane syntetyczne są dobrodziejstwem dla badaczy. Rozważmy, co amerykańskie Narodowe Instytuty Zdrowia (NIH- National Institutes of Health) robią z Syntegrą, startupem świadczącym usługi IT. Syntegra wykorzystuje swoje syntetyczne dane do generowania i walidacji repliki bazy danych Instytutu zawierającej niemożliwe do zidentyfikowania dane pacjentów z COVID‑19. Dane obejmują ponad 2,7 miliona osób poddanych badaniom przesiewowym i ponad 413 tys. pacjentów zakażonych COVID‑19. Syntetyczna baza danych odtwarza właściwości statystyczne zestawu oryginalnego, ale nie zawiera żadnych odnośników do oryginalnych informacji. Może być udostępniana i wykorzystywana przez naukowców na całym świecie do lepszego poznania choroby, i przyspieszenia postępu w leczeniu i szczepionkach.

Technologia ta ma potencjał w wielu gałęziach przemysłu. W sektorze usług finansowych, gdzie ograniczenia dotyczące wykorzystania danych i prywatności klientów są szczególnie restrykcyjne, firmy zaczynają wykorzystywać dane syntetyczne, aby identyfikować i eliminować różnice w sposobie traktowania klientów bez naruszania przepisów dotyczących prywatności danych. Sprzedawcy detaliczni dostrzegają potencjał nowych źródeł przychodów, wynikających ze sprzedaży syntetycznych danych o zachowaniach zakupowych klientów bez ujawniania danych osobowych.

Wartość dla biznesu: bezpieczeństwo, szybkość i skala

Najbardziej oczywistą zaletą danych syntetycznych jest wyeliminowanie ryzyka ujawnienia krytycznych danych oraz naruszenia prywatności i bezpieczeństwa firm i klientów. Techniki takie, jak szyfrowanie, anonimizacja i zaawansowana ochrona prywatności (np. szyfrowanie homomorficzne lub bezpieczne obliczenia wielostronne) koncentrują się na ochronie rzeczywistych danych, które można przypisać konkretnej osobie. Jednak tak długo, jak oryginalne dane są w grze, zawsze istnieje ryzyko naruszenia bezpieczeństwa lub ich ujawnienia.

Eliminując czasochłonne przeszkody związane z protokołami ochrony prywatności i bezpieczeństwa, dane syntetyczne umożliwiają organizacjom szybszy dostęp do danych. Weźmy pod uwagę instytucję finansową dysponującą bogatym zbiorem danych, który mógłby pomóc decydentom w rozwiązywaniu problemów biznesowych. Dane te były ściśle chronione, tak że uzyskanie do nich dostępu, nawet do użytku czysto wewnętrznego, było żmudnym procesem. W jednym przypadku uzyskanie dostępu trwało sześć miesięcy, a kolejne sześć zajęło uzyskanie aktualizacji. Teraz gdy firma generuje dane syntetyczne w oparciu o oryginalne dane, zespół może je stale aktualizować i modelować oraz generować bieżące spostrzeżenia na temat sposobów poprawy wydajności biznesowej.

Ponadto, dzięki danym syntetycznym firma może szybko szkolić modele uczenia maszynowego na dużych zbiorach danych, przyspieszając proces szkolenia, testowania i wdrażania rozwiązań AI (Artificial Inteligence). Jest to odpowiedź na prawdziwe wyzwanie, z którym boryka się wiele firm: brak wystarczającej ilości danych do wytrenowania modelu. Dostęp do dużych zbiorów danych syntetycznych daje inżynierom uczenia maszynowego i naukowcom większą pewność co do wyników uzyskiwanych na różnych etapach rozwoju modelu. A to oznacza szybsze wejście na rynek z nowymi produktami i usługami.

Bezpieczeństwo i szybkość umożliwiają również skalowanie, zwiększając ilość danych dostępnych do analizy. Obecnie firmy mogą kupować dane od osób trzecich, co często jest zaporowo drogie. Kupowanie syntetycznych zestawów danych od stron trzecich powinno ułatwić firmom wykorzystanie większej ilości danych do rozwiązania problemu, który próbują rozwiązać i uzyskanie dokładniejszych odpowiedzi. Na przykład, każdy bank ma obowiązek identyfikowania i eliminowania oszustw. Jest to zadanie, na które każdy bank musi poświęcić wiele zasobów, ponieważ organy regulacyjne zezwalają bankom na badanie jedynie własnych danych pod kątem podejrzanych działań. Gdyby banki połączyły swoje syntetyczne zbiory danych, mogłyby uzyskać całościowy obraz wszystkich osób wchodzących w interakcje z bankami w danym kraju, a nie tylko własnej organizacji, co pomogłoby usprawnić i przyspieszyć proces wykrywania, a w efekcie wyeliminować więcej oszustw przy użyciu mniejszych zasobów.

Dlaczego nie wszyscy z nich korzystają?

Chociaż korzyści płynące z danych syntetycznych są przekonujące, ich stworzenie może być trudne. Generowanie danych syntetycznych to niezwykle złożony proces i aby zrobić to dobrze, organizacja musi zrobić coś więcej niż tylko podłączyć narzędzie AI do analizy swoich zbiorów danych. Zadanie to wymaga ludzi o specjalistycznych umiejętnościach i naprawdę zaawansowanej wiedzy z zakresu AI. Firma potrzebuje również bardzo konkretnych, wyrafinowanych ram pojęciowych i wskaźników, które pozwolą jej potwierdzić, że stworzyła to, co zamierzała stworzyć. W tym miejscu sprawy stają się szczególnie trudne.

Ocena danych syntetycznych jest skomplikowana ze względu na wiele różnych potencjalnych przypadków ich wykorzystania. Określone rodzaje danych syntetycznych są niezbędne do różnych zadań (takich jak prognozowanie lub analiza statystyczna), a te wiążą się z różnymi wskaźnikami wydajności, wymaganiami i ograniczeniami prywatności. Co więcej, różne modalności danych dyktują swoje własne, unikalne wymagania i wyzwania. Prosty przykład: załóżmy, że oceniasz dane, które zawierają datę i miejsce. Te dwie zmienne dyskretne działają w różny sposób i wymagają różnych wskaźników do ich śledzenia. Teraz wyobraźmy sobie dane, które zawierają setki różnych zmiennych, z których wszystkie muszą być oceniane za pomocą bardzo specyficznych wskaźników, a zaczniemy dostrzegać stopień złożoności i wyzwania. Jesteśmy dopiero na początku drogi do stworzenia narzędzi, ram pojęciowych i wskaźników  potrzebnych do oceny i „zagwarantowania” dokładności danych syntetycznych. Osiągnięcie procesowego, powtarzalnego podejścia ma kluczowe znaczenie dla tworzenia dokładnych danych syntetycznych za pomocą standardowego procesu, który jest powszechnie akceptowany, i któremu wszyscy ufają.

Koncepcję danych syntetycznych hamuje również opór kulturowy, z jakim spotyka się ona w wielu firmach. „To nie zadziała w naszej firmie”. „Nie ufam temu. To nie brzmi bezpiecznie”. „Organy regulacyjne nigdy się na to nie zgodzą”. Przekonanie najwyższej kadry kierowniczej oraz zespołów prawnych i ds. ryzyka, że dane syntetyczne są skuteczne, będzie miało decydujące znaczenie dla ich przyjęcia.

Co może pójść nie tak?

Punktem krytycznym jest wykazanie wiarygodności danych syntetycznych. Zespół pracujący nad tym przedsięwzięciem musi wykazać, że stworzone przez niego sztuczne dane rzeczywiście reprezentują oryginalne dane, ale nie mogą być w żaden sposób powiązane z oryginalnym zbiorem ani go eksponować. To jest naprawdę trudne do zrobienia. Jeśli nie są one dokładnie dopasowane, syntetyczny zbiór danych nie jest naprawdę wiarygodny, co stwarza wiele potencjalnych problemów.

Na przykład, załóżmy, że stworzyłeś syntetyczny zbiór danych, który ma posłużyć do opracowania nowego produktu. Jeśli syntetyczny zestaw nie reprezentuje w pełni oryginalnego zestawu danych o klientach, może zawierać niewłaściwe informacje dotyczące tego, czym klienci są zainteresowani lub do czego są skłonni. W rezultacie może się to skończyć wydaniem dużych kwot na stworzenie produktu, którego nikt nie chce. Tworzenie nieprawidłowych danych syntetycznych może również narazić firmę na kłopoty z organami regulacyjnymi. Jeśli wykorzystanie takich danych doprowadzi do naruszenia zgodności z przepisami lub problemów prawnych - np. stworzenia produktu, który komuś zaszkodził lub nie działał zgodnie z reklamą - może to oznaczać znaczne kary finansowe i, być może, ściślejszą kontrolę w przyszłości. Organy regulacyjne dopiero zaczynają oceniać, w jaki sposób tworzone i mierzone są dane syntetyczne, nie mówiąc już o ich udostępnianiu, i niewątpliwie będą miały do odegrania rolę w kierowaniu tym procesem.

Odległym, ale wciąż realnym skutkiem niewłaściwego tworzenia danych syntetycznych jest możliwość wystąpienia tzw. ataków wnioskowania. Cała koncepcja danych syntetycznych polega na tym, że nie są one w żaden sposób powiązane z danymi oryginalnymi. Jeśli jednak nie zostaną stworzone zgodnie ze sztuką, atakujący mogą znaleźć lukę, która pozwoli im prześledzić drogę do oryginalnego zestawu danych i wywnioskować, kim jest konkretna osoba. Następnie mogą wykorzystać tę wiedzę do ciągłego sondowania i kwestionowania syntetycznego zbioru danych, aby w końcu dowiedzieć się reszty - ujawniając cały oryginalny zbiór danych. Z technicznego punktu widzenia jest to niezwykle trudne do wykonania. Jednak przy odpowiednich zasobach nie jest to niemożliwe - a jeśli się powiedzie, konsekwencje mogą być tragiczne.

Jednym z potencjalnych problemów związanych z danymi syntetycznymi, który może wystąpić nawet wtedy, gdy zbiór danych został utworzony prawidłowo, są uprzedzenia. Mogą one łatwo wkradać się do modeli sztucznej inteligencji, które były trenowane na zbiorach danych stworzonych przez człowieka i zawierających nieodłączne, historyczne uprzedzenia. Dane syntetyczne mogą być wykorzystywane do generowania zbiorów danych zgodnych z ustaloną wcześniej definicją uczciwości. Używając tej metryki jako ograniczenia dla modelu optymalizującego, nowy zestaw danych nie tylko będzie dokładnie odzwierciedlał oryginalny zestaw danych, ale będzie to robił w sposób, który spełnia tę konkretną definicję sprawiedliwości. Jeśli jednak w celu uwzględnienia uprzedzeń firma nie wprowadzi złożonych poprawek do modeli sztucznej inteligencji i po prostu skopiuje wzór oryginału, dane syntetyczne będą miały te same uprzedzenia – a w niektórych przypadkach mogą je nawet wzmocnić.

Co jest potrzebne, aby iść naprzód

Wraz z rozwojem odpowiednich umiejętności, narzędzi, wskaźników i technologii firmy będą w najbliższych latach dużo więcej słyszeć o danych syntetycznych. Rozważając, czy ma to dla nich sens powinny zastanowić się nad następującymi czterema pytaniami:

1.           Czy osoby odpowiedzialne wiedzą, w co się pakujemy? Dane syntetyczne to nowa i skomplikowana koncepcja. Dlatego przed wdrożeniem jakiegokolwiek programu danych syntetycznych cała najwyższa kadra kierownicza, zespoły prawne i ds. ryzyka i powinny w pełni rozumieć, czym one są, jak będą wykorzystywane i jakie korzyści mogą przynieść organizacji.

2.           Czy mamy dostęp do niezbędnych kompetencji? Tworzenie danych syntetycznych jest bardzo złożonym procesem. Dlatego organizacje muszą ustalić, czy ich naukowcy i inżynierowie są w stanie nauczyć się, jak to robić. Należy rozważyć, jak często będą tworzyć takie dane, co wpłynie na decyzję, czy powinny poświęcić czas i pieniądze na zbudowanie tej umiejętności, czy też w razie potrzeby zlecić to ekspertom zewnętrznym.

3.           Czy mamy jasny cel? Dane syntetyczne muszą być generowane z myślą o konkretnym celu, ponieważ zamierzone zastosowanie wpływa na sposób ich generowania oraz na to, które z właściwości danych oryginalnych zostaną zachowane. A jeśli jednym z potencjalnych zastosowań jest sprzedaż danych w celu stworzenia nowego strumienia przychodów, kluczowe jest zaplanowanie potencjalnego nowego modelu biznesowego.

4.           Jaka jest skala naszych ambicji? Tworzenie danych syntetycznych nie jest zadaniem dla osób o słabym sercu. Sama złożoność związana z prawidłowym wykonaniem tego zadania oraz potencjalne pułapki wynikające z niewłaściwego postępowania oznaczają, że organizacje powinny mieć pewność, że w zamian dostarczą wystarczające korzyści.

Chociaż dane syntetyczne wciąż znajdują się w czołówce nauki o danych, coraz więcej organizacji eksperymentuje z tym, jak wydobyć je z laboratorium i zastosować w rzeczywistych wyzwaniach biznesowych. Nie wiadomo jeszcze, jak rozwinie się ta ewolucja i jakie będą jej ramy czasowe. Jednak liderzy organizacji opartych na danych powinni mieć je na oku i być gotowi do rozważenia ich zastosowania, kiedy nadejdzie właściwy czas.

.

Fernando Lucini

Fernando Lucini (@fernandolucini) jest globalnym dyrektorem ds. nauki o danych (data science) i inżynierii uczenia maszynowego w Accenture Applied Intelligence