Streszczenie: Dane syntetyczne, generowane przez algorytmy sztucznej inteligencji, stanowią obiecującą alternatywę dla tradycyjnych zbiorów danych, zwłaszcza gdy dostęp do rzeczywistych danych jest ograniczony z powodu obaw dotyczących prywatności lub formalności. Te dane odtwarzają właściwości statystyczne oryginalnych danych, ale nie zawierają informacji umożliwiających identyfikację osób. Jednym z przykładów ich wykorzystania jest syntetyczna baza danych stworzonej przez firmę Syntegra dla Narodowych Instytutów Zdrowia w USA, która zawiera dane pacjentów zakażonych COVID-19. Dzięki temu badacze mogą korzystać z tych danych, nie łamiąc przepisów o ochronie prywatności, co umożliwia szybszy rozwój terapii i szczepionek. Choć dane syntetyczne mają ogromny potencjał, ich stosowanie wiąże się także z ryzykiem, które organizacje muszą starannie ocenić.
Dostęp do danych bywa niekiedy utrudniony. Czasem jednak, do uczenia modeli AI czy pozyskiwania wiedzy, można wykorzystywać dane syntetyczne – sztucznie wygenerowane, ale podobne do rzeczywistych.
W organizacjach dane są podstawowym paliwem dla zaawansowanej analityki i uczenia maszynowego, ale naukowcy nie zawsze mają dostęp do potrzebnych informacji ze względu na formalności i obawy dotyczące prywatności. Obiecującym kierunkiem jest korzystanie z danych syntetycznych, które można udostępniać i wykorzystywać w sposób, w jaki nie można tego zrobić z danymi rzeczywistymi. Jednak nowe podejście nie jest pozbawione ryzyka i wad. Dlatego organizacje muszą uważnie analizować, gdzie i w jaki sposób inwestują swoje zasoby.
Czym są dane syntetyczne?
Dane syntetyczne są generowane przez algorytm sztucznej inteligencji, który został nauczony na prawdziwym zbiorze danych. Mają taką samą moc predykcyjną jak oryginalne, ale zastępują je, a nie ukrywają lub modyfikują. Celem jest odtworzenie właściwości statystycznych i wzorców istniejącego zbioru danych poprzez modelowanie i testowanie rozkładu prawdopodobieństwa. Zasadniczo algorytm tworzy nowe dane, które mają wszystkie cechy oryginalnych, co prowadzi do tych samych wyników. Ale najważniejsze jest to, że odtworzenie oryginalnych danych (np. informacji umożliwiających identyfikację osób) jest praktycznie niemożliwe ani z algorytmu, ani ze stworzonych przez niego danych syntetycznych.
Dane syntetyczne są dobrodziejstwem dla badaczy. Rozważmy, co amerykańskie Narodowe Instytuty Zdrowia (NIH- National Institutes of Health) robią z Syntegrą, startupem świadczącym usługi IT. Syntegra wykorzystuje swoje syntetyczne dane do generowania i walidacji repliki bazy danych Instytutu zawierającej niemożliwe do zidentyfikowania dane pacjentów z COVID‑19. Dane obejmują ponad 2,7 miliona osób poddanych badaniom przesiewowym i ponad 413 tys. pacjentów zakażonych COVID‑19. Syntetyczna baza danych odtwarza właściwości statystyczne zestawu oryginalnego, ale nie zawiera żadnych odnośników do oryginalnych informacji. Może być udostępniana i wykorzystywana przez naukowców na całym świecie do lepszego poznania choroby, i przyspieszenia postępu w leczeniu i szczepionkach.
Materiał dostępny tylko dla subskrybentów
Dołącz do subskrybentów MIT Sloan Management Review Polska Premium!
Kup subskrypcję

