Dostęp do danych bywa niekiedy utrudniony. Czasem jednak, do uczenia modeli AI czy pozyskiwania wiedzy, można wykorzystywać dane syntetyczne – sztucznie wygenerowane, ale podobne do rzeczywistych.
W organizacjach dane są podstawowym paliwem dla zaawansowanej analityki i uczenia maszynowego, ale naukowcy nie zawsze mają dostęp do potrzebnych informacji ze względu na formalności i obawy dotyczące prywatności. Obiecującym kierunkiem jest korzystanie z danych syntetycznych, które można udostępniać i wykorzystywać w sposób, w jaki nie można tego zrobić z danymi rzeczywistymi. Jednak nowe podejście nie jest pozbawione ryzyka i wad. Dlatego organizacje muszą uważnie analizować, gdzie i w jaki sposób inwestują swoje zasoby.
Czym są dane syntetyczne?
Dane syntetyczne są generowane przez algorytm sztucznej inteligencji, który został nauczony na prawdziwym zbiorze danych. Mają taką samą moc predykcyjną jak oryginalne, ale zastępują je, a nie ukrywają lub modyfikują. Celem jest odtworzenie właściwości statystycznych i wzorców istniejącego zbioru danych poprzez modelowanie i testowanie rozkładu prawdopodobieństwa. Zasadniczo algorytm tworzy nowe dane, które mają wszystkie cechy oryginalnych, co prowadzi do tych samych wyników. Ale najważniejsze jest to, że odtworzenie oryginalnych danych (np. informacji umożliwiających identyfikację osób) jest praktycznie niemożliwe ani z algorytmu, ani ze stworzonych przez niego danych syntetycznych.
Dane syntetyczne są dobrodziejstwem dla badaczy. Rozważmy, co amerykańskie Narodowe Instytuty Zdrowia (NIH- National Institutes of Health) robią z Syntegrą, startupem świadczącym usługi IT. Syntegra wykorzystuje swoje syntetyczne dane do generowania i walidacji repliki bazy danych Instytutu zawierającej niemożliwe do zidentyfikowania dane pacjentów z COVID‑19. Dane obejmują ponad 2,7 miliona osób poddanych badaniom przesiewowym i ponad 413 tys. pacjentów zakażonych COVID‑19. Syntetyczna baza danych odtwarza właściwości statystyczne zestawu oryginalnego, ale nie zawiera żadnych odnośników do oryginalnych informacji. Może być udostępniana i wykorzystywana przez naukowców na całym świecie do lepszego poznania choroby, i przyspieszenia postępu w leczeniu i szczepionkach.