Streszczenie: Wiele firm zmaga się z brakiem wystarczającej ilości danych, co hamuje innowacje, rozwój sztucznej inteligencji i podejmowanie strategicznych decyzji. Dane syntetyczne jawią się jako przełomowe rozwiązanie tego problemu. Są to generowane algorytmicznie informacje, które precyzyjnie odzwierciedlają strukturę i właściwości danych rzeczywistych, jednak bez ujawniania wrażliwych informacji osobistych. Pozwala to organizacjom na trenowanie modeli AI, testowanie różnorodnych scenariuszy oraz prowadzenie analiz bez ryzyka naruszenia prywatności czy wycieku danych. Co więcej, dane syntetyczne są skalowalne, powtarzalne i łatwo dostępne, co jest kluczowe w dynamicznym środowisku biznesowym. Zastosowanie tej technologii, jak pokazuje przykład Fathom Science chroniącego wieloryby przy współpracy z SAS, umożliwia osiąganie realnych efektów nawet przy minimalnej ilości danych początkowych. Dane syntetyczne pozwalają również na eliminację uprzedzeń algorytmicznych i wzbogacanie zbiorów o rzadkie, ale krytyczne zdarzenia, co znacząco poprawia skuteczność modeli predykcyjnych. W perspektywie najbliższych 12-18 miesięcy, narzędzia do generowania danych syntetycznych mają przynieść firmom wymierne korzyści, stając się standardem w podejściu do analityki i innowacji.
Brakuje ci danych, by rozwijać innowacje, trenować modele AI czy podejmować trafne decyzje? Nie jesteś sam. Dla wielu firm to właśnie deficyt danych jest największym hamulcem postępu. Ale to się zmienia. Dzięki danym syntetycznym, tworzonym przez zaawansowane narzędzia, możliwe staje się budowanie skutecznych modeli, testowanie scenariuszy i przyspieszanie transformacji. Przykład Fathom Science, które dzięki współpracy z SAS opracowało system chroniący zagrożone wieloryby, pokazuje, że nawet przy minimalnej ilości danych można osiągnąć realne efekty – również w biznesie.
Przez lata w zarządach i salach konferencyjnych jednym z najczęściej powtarzanych haseł było: „Więcej danych!”. Dane miały być nową ropą, złotem XXI wieku, a najlepiej – wszystkim naraz. Nic dziwnego, że firmy inwestowały ogromne środki, czas i energię w zbieranie, porządkowanie i zabezpieczanie danych, które miały napędzać strategiczne decyzje i przewagi konkurencyjne. I choć niektórym udało się zbudować solidne zasoby informacyjne, dla wielu – zwłaszcza mniejszych lub działających w branżach regulowanych – tempo wyścigu okazywało się zbyt duże, a wymagania zbyt wysokie.
Dobra wiadomość? Ten paradygmat właśnie się zmienia. Dzięki rozwojowi sztucznej inteligencji na scenę wchodzą dane syntetyczne – obiecujące narzędzie, które może zrewolucjonizować sposób, w jaki organizacje podchodzą do analityki i innowacji. Dla tych, którzy do tej pory zmagali się z brakami w danych, to szansa na złapanie oddechu – i przyspieszenie.
Czym są dane syntetyczne?
W największym skrócie: dane syntetyczne to inteligentnie generowane informacje, które odzwierciedlają strukturę i właściwości danych rzeczywistych, ale nie zawierają wrażliwych danych osobowych. Tworzone algorytmicznie, stanowią odpowiedź na sytuacje, w których dostęp do realnych danych jest utrudniony – czy to ze względu na ich niekompletność, wysokie koszty pozyskania, czy też ograniczenia prawne i etyczne.
Ich przewaga? Można na nich trenować modele AI, testować rozwiązania i przeprowadzać analizy bez narażania się na zarzuty o naruszenie prywatności czy ryzyko wycieku. Co więcej, dane syntetyczne są powtarzalne, skalowalne i – co szczególnie istotne w dynamicznym środowisku biznesowym – dostępne niemal od ręki.
Dane syntetyczne coraz śmielej wkraczają także do branż, które z natury muszą poruszać się ostrożnie – jak ubezpieczenia czy finanse. W tych sektorach pomagają nie tylko testować nowe modele, lecz także eliminować uprzedzenia algorytmiczne i spełniać surowe wymogi dotyczące ochrony danych osobowych.
Co istotne, jakość samych danych syntetycznych rośnie wraz z postępem technologii generatywnej. Dzisiejsze syntetyczne zbiory potrafią do złudzenia przypominać dane rzeczywiste, oferując jednocześnie większą elastyczność i bezpieczeństwo. To otwiera drzwi do eksperymentowania, testowania i budowania rozwiązań, które do tej pory były zablokowane przez ograniczenia prawne lub technologiczne.
Przykłady zastosowania danych syntetycznych w różnych branżach:
| Branża | Przykładowe zastosowania |
| Bankowość | Ocena zdolności kredytowej Wykrywanie oszustw finansowych Monitorowanie cyberbezpieczeństwa |
| Sektor publiczny | Tworzenie polityk publicznych Wspomaganie działań organów ścigania Analiza ekonomiczna |
| Nauki przyrodnicze | Badania kliniczne Badania w zakresie zdrowia publicznego Rozwój technologii informacyjnych w ochronie zdrowia |
| Przemysł | Predykcyjne utrzymanie ruchu Zapewnienie bezpieczeństwa pracowników Kontrola jakości produktów |
Jak tłumaczy Bryan Harris, executive vice president i chief technology officer w SAS, wraz z rosnącą popularnością sztucznej inteligencji – szczególnie tej deterministycznej, jak algorytmy podejmujące decyzje kredytowe – coraz większe znaczenie zyskuje jakość i reprezentatywność danych treningowych.
– Duże modele językowe (LLM) nie powinny być wykorzystywane do podejmowania takich decyzji – zaznacza Harris. – Jeśli chcemy, aby system prawidłowo zatwierdzał lub odrzucał wnioski kredytowe, musi być trenowany na danych, które odzwierciedlają pełne spektrum zjawisk rynkowych.
Tymczasem w rzeczywistości wiele organizacji opiera się jedynie na własnych, często ograniczonych zasobach danych, a to oznacza, że ich modele mogą „uczyć się” na zbyt wąskim wycinku rzeczywistości.
– Dane syntetyczne, pozyskiwane z użyciem narzędzi generatywnej AI, pozwalają stworzyć zbiory statystycznie spójne z rzeczywistymi, ale pozbawione informacji poufnych – wyjaśnia Harris. – Co więcej, mogą być wzbogacone o dodatkowe uwarunkowania, dzięki czemu lepiej odzwierciedlają złożoność problemów występujących na rynku.
W praktyce oznacza to większą otwartość na innowacje: takie dane mogą być bezpiecznie udostępniane większej liczbie zespołów w organizacji bez ryzyka naruszenia przepisów czy wewnętrznych polityk prywatności.
– To poszerza granice innowacji, bo więcej osób może pracować z danymi bez obaw o naruszenie poufności. A uzyskane w ten sposób wyniki można następnie przetestować na rzeczywistych zbiorach, aby potwierdzić ich skuteczność – dodaje.
Przykłady? Współpraca z jednym z brytyjskich banków, w którym dane syntetyczne wygenerowane za pomocą generatywnych sieci przeciwstawnych (GAN) pozwoliły poprawić wydajność modelu o 20%. Szczególne zainteresowanie tą technologią widać również w takich branżach jak life sciences czy usługi finansowe.
– Nasi klienci zwracają ogromną uwagę na tzw. różnicową prywatność – mówi Harris. – To ona gwarantuje, że z wytrenowanego modelu nie da się odtworzyć danych identyfikujących konkretne osoby.
Standardowe narzędzie przyszłości
Specjaliści nie mają już wątpliwości: dane syntetyczne to nie ciekawostka, lecz kierunek rozwoju, który wkrótce stanie się standardem. W ocenie ekspertów z SAS narzędzia do ich generowania mogą stać się jednymi z najskuteczniejszych na rynku – i to szybciej, niż się wydaje.
– W ciągu najbliższych dwunastu–osiemnastu miesięcy te rozwiązania przyniosą organizacjom realne, mierzalne korzyści – przewiduje Bryan Harris. – Już dziś obserwujemy bardzo pozytywne efekty pierwszych wdrożeń.
Obecnie intensywnie rozwijane są technologie generowania danych tabelarycznych – takich, które mają bezpośrednie zastosowanie w codziennych operacjach biznesowych, jak choćby w procesie likwidacji szkód w branży ubezpieczeniowej.
– Następnym krokiem będzie syntetyczne generowanie obrazów, które można wykorzystać np. do trenowania modeli wykrywających próby oszustw w firmach ubezpieczeniowych – mówi Harris. – Tego typu rozwiązaniami interesują się klienci zarówno z Europy, w tym z Wielkiej Brytanii, jak z USA.

Bryan Harris, executive vice president, chief technology officer, SAS
Co ciekawe, do stworzenia wysokiej jakości danych syntetycznych wcale nie potrzeba ogromnych początkowych zbiorów danych. To szczególnie ważne w obszarach, w których pewne zdarzenia są bardzo rzadkie, jak np. oszustwa finansowe.
– Jeśli mniej niż 1% z miliarda transakcji kartą to fraudy, mamy do czynienia z klasycznie niezbalansowanym zbiorem danych – tłumaczy ekspert. – A to oznacza, że modele mogą mieć trudność z ich wykrywaniem.
Dane syntetyczne pozwalają ten problem rozwiązać. „Dosztukowanie” danych o rzadkich zdarzeniach sprawia, że modele stają się bardziej odporne na błędy, a ich skuteczność znacząco rośnie.
– Możemy generować dane dla konkretnych segmentów, nawet jeśli jakaś sytuacja wystąpiła tylko kilka razy. To niezwykle ważne chociażby w obszarze bezpieczeństwa pracy – mówi Harris. – Nie możemy przecież czekać, aż zdarzy się wypadek, żeby zebrać dane do analizy. Dzięki syntetycznym danym jesteśmy w stanie uczyć modele proaktywnie.
Czy dane syntetyczne są bezpieczne?
Paradoksalnie praca z danymi syntetycznymi może być bezpieczniejsza niż z danymi rzeczywistymi – i to zarówno z perspektywy ochrony prywatności, jak i operacyjnej. W przeszłości, aby stworzyć modele analizujące zagrożenia w fabrykach czy magazynach, trzeba było odtwarzać potencjalnie niebezpieczne sytuacje fizycznie, co wiązało się z kosztami, ryzykiem i ograniczoną powtarzalnością.
– Dziś można zasymulować identyczne scenariusze, manipulując oświetleniem, ustawieniem obiektów, kątem kamery, a nawet generując realistyczny materiał wideo – wyjaśnia Bryan Harris. – To drastycznie obniża koszty, pozwala tworzyć bardziej zróżnicowane przypadki testowe i budować solidniejsze modele zapobiegające wypadkom. Co najważniejsze, nie trzeba już czekać, aż dojdzie do niebezpiecznego zdarzenia, by móc poprawić algorytmy.
Dane syntetyczne oferują też coś, co w pracy z danymi rzeczywistymi jest niemal niemożliwe: pełną kontrolę nad scenariuszami. Eksperci wskazują, że to właśnie może okazać się największym przełomem w cyfrowej transformacji przemysłu.
– Na Światowym Forum Ekonomicznym w Davos sporo mówiło się o idei Industry for All – cyfrowo zarządzanej produkcji, w której kluczową rolę odgrywają cyfrowe bliźniaki, dane symulowane i inteligentni agenci – zauważa Udo Sglavo, wiceprezes SAS ds. zastosowań AI i modelowania. – To nie jest powrót do tradycyjnych hal przemysłowych. To wizja fabryk, w których trzy osoby mogą efektywnie zarządzać całym procesem dzięki zaawansowanym, cyfrowym narzędziom.
Jak podkreśla ekspert, główną przewagą danych syntetycznych jest możliwość odwzorowania zdarzeń, które w rzeczywistości występują niezwykle rzadko, ale mają ogromne znaczenie.

Udo Sglavo, vice president, applied AI and modeling R&D, SAS
– Wyobraźmy sobie, że chcemy wykrywać potencjalnie śmiertelne incydenty. Historycznie wymagałoby to dostępu do danych o faktycznych tragediach, co rodzi zarówno problemy etyczne, jak i praktyczne – tłumaczy Sglavo. – Dzięki symulacjom możemy „rozegrać” tysiące scenariuszy, w których dochodzi do niebezpiecznych sytuacji. To jak gra komputerowa: nikt nie cierpi, a model dostaje dane, które pozwalają mu lepiej reagować w rzeczywistości.
Jak dodaje, dziś jesteśmy dopiero na początku tej drogi. Z jednej strony – pierwsze rezultaty są bardzo obiecujące. Z drugiej – wciąż toczy się dyskusja o tym, kiedy i w jakich warunkach dane syntetyczne mogą zastąpić dane rzeczywiste.
– Niektórzy uważają, że tylko dane z rzeczywistego świata mają wartość. Ja myślę odwrotnie – twierdzi Sglavo. – To dane syntetyczne dają modelarzom narzędzia, jakich wcześniej nie mieli. Pełną kontrolę i elastyczność. A to ogromna przewaga.
Dane syntetyczne w biznesie – jak je wykorzystać?
W erze, w której dane stanowią paliwo dla innowacji, coraz częściej okazuje się, że to nie brak pomysłów czy technologii, ale właśnie niedostatek danych staje się największą barierą dla postępu. Przykład? Historia majestatycznych wielorybów biskajskich północnoatlantyckich i zespołu analityków z Fathom Science, którzy postanowili je chronić.
Celem było opracowanie systemu WhaleCast – predykcyjnego modelu ostrzegającego statki przed zbliżeniem się do siedlisk zagrożonych wyginięciem wielorybów. Problem? Drastyczny niedobór danych. Oceaniczne środowisko jest zmienne, a liczba obserwacji wciąż zbyt mała, by móc zbudować model uczący się wiarygodnie na podstawie przeszłości i przewidujący przyszłość. W efekcie zespół stanął przed klasycznym dylematem: jak rozwijać algorytmy, gdy brakuje paliwa do ich zasilenia?
Przełom przyniosła decyzja o wykorzystaniu danych syntetycznych. Wspólnie z ekspertem SAS, Lincolnem Grovesem, i w ramach inicjatywy Data for Good, zespół Fathom Science wykorzystał platformę SAS Data Maker do wygenerowania pół miliona sztucznych punktów danych, odzwierciedlających charakterystyki oryginalnych obserwacji. Dzięki temu możliwe było dokładne testowanie różnych modeli predykcyjnych – zarówno klasycznych statystycznych, jak i nowoczesnych sieci neuronowych – bez ryzyka nadmiernego dopasowania i przy zachowaniu wysokiej jakości danych wejściowych.
Efekty? WhaleCast zyskał potwierdzenie swojej skuteczności, a co ważniejsze – stał się narzędziem gotowym do praktycznego zastosowania. Zespół nie tylko udowodnił, że można stworzyć model mimo ograniczonych danych rzeczywistych, ale też, że dane syntetyczne mogą pełnić kluczową rolę w ochronie życia – zarówno ludzi, jak i innych zagrożonych gatunków.
– Studium przypadku Fathom Science i SAS doskonale ilustruje, że dane syntetyczne to nie tylko narzędzie dla zespołów R&D, ale też strategiczny zasób dla całej organizacji – komentują autorzy publikacji na curiosity.sas.com. – Pozwalają firmom przyspieszyć rozwój rozwiązań AI, testować je bezpiecznie i skutecznie oraz wdrażać tam, gdzie dostęp do danych rzeczywistych jest ograniczony, kosztowny lub nieetyczny.
