Najpopularniejsze tematy:

Premium

Materiał dostępny tylko dla Subskrybentów

Nie masz subskrypcji? Dołącz do grona Subskrybentów i korzystaj bez ograniczeń!

Wybierz wariant dopasowany do siebie!

Jesteś Subskrybentem? Zaloguj się

Premium

Subskrybenci wiedzą więcej!

Nie masz subskrypcji? Dołącz do grona Subskrybentów i korzystaj bez ograniczeń!

Wybierz wariant dopasowany do siebie!

Jesteś Subskrybentem? Zaloguj się

X
Następny artykuł dla ciebie
Wyświetl >>
Dane syntetyczne – duży potencjał dla biznesu

Dostęp do danych bywa niekiedy utrudniony. Czasem jednak, do uczenia modeli AI czy pozyskiwania wiedzy, można wykorzystywać dane syntetyczne – sztucznie wygenerowane, ale podobne do rzeczywistych.

W organizacjach dane są podstawowym paliwem dla zaawansowanej analityki i uczenia maszynowego, ale naukowcy nie zawsze mają dostęp do potrzebnych informacji ze względu na formalności i obawy dotyczące prywatności. Obiecującym kierunkiem jest korzystanie z danych syntetycznych, które można udostępniać i wykorzystywać w sposób, w jaki nie można tego zrobić z danymi rzeczywistymi. Jednak nowe podejście nie jest pozbawione ryzyka i wad. Dlatego organizacje muszą uważnie analizować, gdzie i w jaki sposób inwestują swoje zasoby.

Czym są dane syntetyczne?

Dane syntetyczne są generowane przez algorytm sztucznej inteligencji, który został nauczony na prawdziwym zbiorze danych. Mają taką samą moc predykcyjną jak oryginalne, ale zastępują je, a nie ukrywają lub modyfikują. Celem jest odtworzenie właściwości statystycznych i wzorców istniejącego zbioru danych poprzez modelowanie i testowanie rozkładu prawdopodobieństwa. Zasadniczo algorytm tworzy nowe dane, które mają wszystkie cechy oryginalnych, co prowadzi do tych samych wyników. Ale najważniejsze jest to, że odtworzenie oryginalnych danych (np. informacji umożliwiających identyfikację osób) jest praktycznie niemożliwe ani z algorytmu, ani ze stworzonych przez niego danych syntetycznych.

Dane syntetyczne są dobrodziejstwem dla badaczy. Rozważmy, co amerykańskie Narodowe Instytuty Zdrowia (NIH- National Institutes of Health) robią z Syntegrą, startupem świadczącym usługi IT. Syntegra wykorzystuje swoje syntetyczne dane do generowania i walidacji repliki bazy danych Instytutu zawierającej niemożliwe do zidentyfikowania dane pacjentów z COVID‑19. Dane obejmują ponad 2,7 miliona osób poddanych badaniom przesiewowym i ponad 413 tys. pacjentów zakażonych COVID‑19. Syntetyczna baza danych odtwarza właściwości statystyczne zestawu oryginalnego, ale nie zawiera żadnych odnośników do oryginalnych informacji. Może być udostępniana i wykorzystywana przez naukowców na całym świecie do lepszego poznania choroby, i przyspieszenia postępu w leczeniu i szczepionkach.

Zostało 81% artykułu.

Materiał dostępny tylko dla subskrybentów

Dołącz do subskrybentów MIT Sloan Management Review Polska Premium!

Jesteś subskrybentem? Zaloguj się »

Fernando Lucini

Fernando Lucini (@fernandolucini) jest globalnym dyrektorem ds. nauki o danych (data science) i inżynierii uczenia maszynowego w Accenture Applied Intelligence

Polecane artykuły


Najpopularniejsze tematy