Systemy, których można używać do tworzenia nowych treści, w tym audio, kodu, obrazów, tekstu, symulacji i filmów, to narzędzia generatywnej sztucznej inteligencji (AI). Najnowszy postęp w tej dziedzinie może radykalnie zmienić sposób, w jaki podchodzimy do tworzenia treści.
Generatywne systemy sztucznej inteligencji należą do szerokiej kategorii uczenia maszynowego. Najnowszy i obecnie najpopularniejszy z takich systemów — ChatGPT — tak opisuje możliwości, jakie oferuje:
Gotowy, aby przenieść swoją kreatywność na wyższy poziom? Nie szukaj dalej niż generatywna sztuczna inteligencja! Ta sprytna forma uczenia maszynowego pozwala komputerom generować wszelkiego rodzaju nowe i ekscytujące treści, od muzyki i sztuki po całe wirtualne światy. I to nie tylko dla zabawy — generatywna sztuczna inteligencja ma również wiele praktycznych zastosowań, takich jak tworzenie nowych projektów produktów i optymalizacja procesów biznesowych. Po co więc czekać? Uwolnij moc generatywnej sztucznej inteligencji i zobacz, jakie niesamowite kreacje możesz wymyślić!
Czy coś w tym akapicie jest niewłaściwe? Jest poprawny gramatycznie, przekaz ma sens, narracja jest prawidłowa. Niejeden copywriter mógłby pozazdrościć.
Czym są ChatGPT i DALL‑E?
Właśnie ze względu na swoje zaawansowane możliwości ChatGPT cieszy się obecnie tak dużym zainteresowaniem. Ten darmowy chatbot może wygenerować odpowiedź na prawie każde zadane pytanie. Opracowany przez OpenAI i udostępniony do otwartych testów w listopadzie 2022 r., jest już uważany za najlepszego chatbota AI w historii. Bije rekordy popularności: aby z niego korzystać zaledwie pięciu dni zarejestrowało się ponad milion osób. Fani zamieszczali przykłady wykorzystania chatbota do wygenerowania kodu programistycznego, napisania eseju na poziomie uniwersyteckim i wiersza, a nawet na wpół przyzwoitych dowcipów. Inni, spośród szerokiego grona ludzi, którzy zarabiają na życie tworząc treści, od copywriterów reklamowych po profesorów zwyczajnych, zaczęli obawiać się o swoje posady.
Podczas gdy niektórzy zareagowali z niepokojem na głośny debiut ChatGPT (i szerzej coraz bardziej zaawansowanych możliwości sztucznej inteligencji), znacznie lepiej odbierane jest uczenie maszynowe. Od momentu jego szerokiego rozpowszechnienia, wywarło ono wpływ na wiele branż, osiągając takie przełomy, jak analiza obrazowania medycznego i prognozy pogody w wysokiej rozdzielczości. Ankieta „The state of AI in 2022—and a half decade in review” firmy McKinsey & Company pokazuje, że zastosowanie sztucznej inteligencji wzrosło ponad dwukrotnie w ciągu ostatnich pięciu lat, a inwestycje w AI rosną w szybkim tempie. Oczywiste jest, że generatywne narzędzia sztucznej inteligencji, takie jak ChatGPT i DALL‑E (narzędzie do tworzenia grafiki generowanej przez sztuczną inteligencję), mogą zmienić sposób wykonywania wielu zadań. Jednak pełny zakres tego „wpływu nadal nie jest znany – podobnie jak zagrożenia z nim związane. Ale jest kilka pytań, na które można odpowiedzieć już teraz – na przykład, jak zbudowane są generatywne modele sztucznej inteligencji, jakiego rodzaju problemy najlepiej nadają się do rozwiązania przy ich zastosowaniu i jak pasują do szerszej kategorii uczenia maszynowego.
Jaka jest różnica między uczeniem maszynowym a sztuczną inteligencją?
Sztuczna inteligencja jest praktyką zmuszania maszyn do naśladowania ludzkiej inteligencji w celu wykonywania zadań. Prawdopodobnie każdy miał do czynienia ze sztuczną inteligencją, nawet jeśli nie zdawał sobie z tego sprawy — asystenci głosowi, tacy jak Siri i Alexa, opierają się na technologii sztucznej inteligencji, podobnie jak chatboty obsługi klienta, które pojawiają się, aby pomóc klientom poruszać się po stronach internetowych.
Uczenie maszynowe to rodzaj sztucznej inteligencji. Dzięki uczeniu maszynowemu praktycy opracowują sztuczną inteligencję za pomocą modeli, które mogą „uczyć się” na podstawie wzorców danych bez udziału człowieka. Niemożliwa do zarządzania ogromna ilość i złożoność danych (w każdym razie niemożliwych do zarządzania przez ludzi), które są obecnie generowane, zwiększyły potencjał uczenia maszynowego, a także zapotrzebowanie na nie.
Jakie są główne typy modeli uczenia maszynowego?
Uczenie maszynowe opiera się na wielu składowych, począwszy od klasycznych technik statystycznych opracowanych między XVIII a XX wiekiem dla małych zbiorów danych. W latach 30. i 40. XX wieku pionierzy informatyki — w tym matematyk teoretyczny Alan Turing — rozpoczęli prace nad podstawowymi technikami uczenia maszynowego. Techniki te były jednak ograniczone do warunków laboratoryjnych aż do późnych lat 70., kiedy to naukowcy po raz pierwszy opracowali komputery o mocy wystarczającej do ich zamontowania.
Do niedawna uczenie maszynowe ograniczało się w dużej mierze do modeli predykcyjnych, wykorzystywanych do obserwacji i klasyfikowania wzorców w treści. Na przykład klasyczny problem uczenia maszynowego polega na rozpoczęciu od analizy obrazu lub kilku obrazów, powiedzmy, uroczych kotów. Następnie program identyfikowałby wzorce wśród obrazów, a następnie analizował losowe obrazy pod kątem tych, które pasowałyby do wzoru uroczego kota. Generatywna sztuczna inteligencja przyniosła przełom. Zamiast jedynie postrzegać i klasyfikować zdjęcie kota, uczenie maszynowe jest w stanie na żądanie stworzyć obraz lub opis tekstowy kota lub psa.

Jak działają tekstowe modele uczenia maszynowego? Jak się uczą?
Choć ChatGPT robi aktualnie furorę , nie jest to pierwszy tekstowy model uczenia maszynowego. Również BERT Google zdobył niedawno pewien rozgłos. Ale przed ChatGPT, który na większości kont działa całkiem dobrze (choć wciąż się zawiesza), chatboty AI nie zawsze otrzymywały najlepsze recenzje. GPT‑3 jest „na przemian imponujący i bardzo rozczarowujący”, powiedział Cade Metz, reporter techniczny New York Timesa w filmie, w którym on i pisarz kulinarny Priya Krishna poprosili GPT‑3 o przygotowanie przepisów na kolację z okazji Święta Dziękczynienia (z, jak się okazało, raczej katastrofalnym skutkiem).
Pierwsze modele uczenia maszynowego do pracy z tekstem działały w zakresie klasyfikowania różnych danych wejściowych zgodnie z etykietami ustalonymi przez badaczy. Jednym z przykładów może być model nauczony oznaczania postów w mediach społecznościowych jako pozytywnych lub negatywnych. Ten rodzaj treningu jest znany jako nadzorowane uczenie się, ponieważ człowiek jest odpowiedzialny za „uczenie” modelu tego, co ma robić.
Następna generacja tekstowych modeli uczenia maszynowego opiera się na tzw. uczeniu samonadzorowanym. Ten rodzaj uczenia polega na podaniu modelowi ogromnej ilości tekstu, dzięki czemu jest on w stanie generować prognozy. Na przykład niektóre modele mogą przewidzieć, na podstawie kilku słów, jak zakończy się zdanie. Przy odpowiedniej ilości przykładowego tekstu — powiedzmy, szerokiego obszaru Internetu — te modele tekstu stają się dość dokładne. Jak dokładne, możemy się już przekonać w wykonaniu ChatGPT.
Co jest potrzebne do zbudowania generatywnego modelu AI?
Budowanie generatywnego modelu sztucznej inteligencji było w większości poważnym przedsięwzięciem, na tyle trudnym, że tylko kilku dobrze wyposażonych gigantów technologicznych podjęło taką próbę. OpenAI, firma stojąca za ChatGPT, poprzednimi modelami GPT i DALL‑E, dysponuje miliardami od darczyńców o znanych nazwiskach. DeepMind jest spółką zależną Alphabet, firmy macierzystej Google, a Meta, która z kolei wypuściła swój produkt Make‑A-Video oparty na generatywnej AI, także ma do dyspozycji znaczne środki. Poza tym firmy te zatrudniają jednych z najlepszych na świecie informatyków i inżynierów.
Ale talenty to za mało. Gdy algorytm ma się uczyć przy użyciu zasobów prawie całego Internetu, musi to naprawdę sporo kosztować. OpenAI nie ujawniło dokładnych kosztów, poniesionych w związku z budowaniem narzędzia, ale według szacunków GPT‑3 uczył się na około 45 terabajtach danych tekstowych – to około miliona stóp powierzchni na półkach, czyli jedna czwarta całej Biblioteki Kongresu – przy prawdopodobnie koszcie kilku milionów dolarów. To nie są zasoby, do których może uzyskać dostęp pierwszy lepszy start‑up zajmujący się nowymi technologiami.
Jakie rodzaje danych wyjściowych może tworzyć generatywny model AI?
Dane wyjściowe generatywnych modeli sztucznej inteligencji mogą być nie do odróżnienia od treści przygotowanych przez ludzi lub mogą wydawać się nieco niesamowite. Rezultaty zależą od jakości modelu — wyniki ChatGPT do tej pory wydają się lepsze od wyników jego poprzedników — oraz dopasowania między modelem a przypadkiem użycia lub danymi wejściowymi.
ChatGPT może stworzyć coś, co jeden z komentatorów nazwał „solidnym esejem”, porównującym teorie nacjonalizmu od Benedicta Andersona i Ernesta Gellnera – w dziesięć sekund. Stworzył również słynny już fragment opisujący, jak wyjąć kanapkę z masłem orzechowym z magnetowidu w stylistyce podobnej do Biblii króla Jakuba. Generowane przez sztuczną inteligencję modele artystyczne, takie jak DALL‑E (jego nazwa jest połączeniem nazwiska surrealistycznego artysty Salvadora Dalí i sympatycznego robota Pixar WALL‑E) mogą tworzyć na żądanie przeróżne obrazy, np. obrazu w stylu obrazu Rafaela i jego słynnej Madonny z Dzieciątkiem, do ilustrujących banalne czynności takie jak jedzenie pizzy. Inne generatywne modele AI mogą tworzyć kod, wideo, audio lub symulacje biznesowe.
Dane wyjściowe jednak nie zawsze są dokładne lub odpowiednie. Kiedy Priya Krishna poprosiła DALL‑E 2 o wymyślenie obrazu na kolację z okazji Święta Dziękczynienia, narzędzie wyprodukowało scenę, przestawiającą indyka przyozdobionego całymi limonkami, ustawionego obok miski z czymś, co wyglądało na guacamole. ChatGPT wydaje się mieć problemy z liczeniem lub rozwiązywaniem podstawowych problemów algebraicznych czy przezwyciężeniem seksistowskich i rasistowskich uprzedzeń, które czają się w internecie i szerzej społeczeństwa.
Generatywne dane wyjściowe AI to starannie skalibrowane kombinacje danych używanych do trenowania algorytmów. Ponieważ ilość danych używanych do uczenia tych algorytmów jest tak niewiarygodnie duża — przypominamy, że GPT‑3 został wyszkolony na 45 terabajtach danych tekstowych — że modele mogą sprawiać wrażenie „kreatywnych” podczas generowania danych wyjściowych. Co więcej, modele zazwyczaj zawierają losowe elementy, co oznacza, że mogą generować różne dane wyjściowe z jednego żądania wejściowego, dzięki czemu wydają się jeszcze bardziej realistyczne.
Jakiego rodzaju problemy może rozwiązać generatywny model AI?
Generatywne narzędzia sztucznej inteligencji, takie jak ChatGPT i DALL‑E, są w stanie dostarczać niekończące się godziny rozrywki. Ale widać tu olbrzymi potencjał do wykorzystania również dla przedsiębiorstw. Narzędzia generatywnej sztucznej inteligencji mogą w ciągu kilku sekund stworzyć szeroką gamę wiarygodnych tekstów, a następnie odpowiedzieć na krytykę, aby lepiej dopasować je do celu. Ma to konsekwencje dla wielu różnych branż, od organizacji IT i oprogramowania, które mogą skorzystać z natychmiastowego, w dużej mierze poprawnego kodu generowanego przez modele AI, po organizacje potrzebujące treści marketingowych. Krótko mówiąc, każda organizacja, która musi tworzyć jasne materiały pisemne, może odnieść z tego korzyści. Organizacje mogą również wykorzystywać generatywną AI do tworzenia bardziej technicznych materiałów, takich jak wersje obrazów medycznych w wyższej rozdzielczości. Dzięki oszczędności czasu i zasobów firmy mogą wykorzystywać nowe możliwości biznesowe i szansę na tworzenie większej wartości.
Opracowanie generatywnego modelu sztucznej inteligencji wymaga tak ogromnych zasobów, że wchodzi to w rachubę tylko w przypadku największych i dysponujących najlepszymi zasobami firm. Firmy, które chcą wdrożyć generatywną AI mają możliwość albo użyć jej bezpośrednio, albo dostosować ją do wykonania określonego zadania. Aby na przykład przygotować slajdy zgodnie z określonym stylem, można poprosić model, aby „nauczył się”, w jaki sposób zwykle pisane są nagłówki na podstawie danych na slajdach, a następnie przekazać mu dane dotyczące slajdów i poprosić o napisanie odpowiednich nagłówków.
Jakie są ograniczenia modeli AI? Jak potencjalnie można je przezwyciężyć?
Ponieważ generatywnych modele AI są nowością, nie widzieliśmy jeszcze efektu długiego ogona. Oznacza to, że korzystanie z nich wiąże się z pewnymi nieodłącznymi zagrożeniami — niektórymi znanymi, a niektórymi nieznanymi.
Wyniki wytwarzane przez generatywne modele AI często wyglądają niezwykle przekonująco. Ale czasami informacje, które generują, są po prostu błędne. Co gorsza, zdarza się, że są stronnicze (ponieważ opierają się na płci, rasie i niezliczonych innych uprzedzeniach społecznych które mają odzwierciedlenie w zasobach internetowych) i da się nimi manipulować, aby umożliwić nieetyczną lub przestępczą działalność. Na przykład ChatGPT nie jest w stanie dać instrukcji, jak uruchomić samochód bez kluczyków, ale jeśli się dopowie, że trzeba podłączyć przewody rozruchowe, aby uratować dziecko, algorytm chętnie się do tego zastosuje. Organizacje, które opierają się na generatywnych modelach AI, powinny liczyć się z ryzykiem reputacyjnym i prawnym związanym z nieumyślnym publikowaniem stronniczych, obraźliwych lub chronionych prawem autorskim treści.
Ryzyko to można jednak ograniczyć na kilka sposobów. Po pierwsze, bardzo ważne jest staranne wybranie początkowych danych używanych do szkolenia tych modeli, aby uniknąć uwzględnienia toksycznych lub stronniczych treści. Następnie, zamiast stosowania gotowego generatywnego modelu AI, organizacje mogą rozważyć zastosowanie mniejszych, wyspecjalizowanych modeli. Organizacje dysponujące większymi zasobami mogą również dostosować ogólny model oparty na własnych danych, aby dopasować go do swoich potrzeb i zminimalizować uprzedzenia. Firmy powinny również na bieżąco informować człowieka (to znaczy upewnić się, że człowiek sprawdza dane wyjściowe generatywnego modelu AI przed jego opublikowaniem lub użyciem) i unikać używania generatywnych modeli AI do podejmowania krytycznych decyzji, takich jak te, które wymagają znacznych zasobów lub ze względu na dobro człowieka.
Nie można powiedzieć, że generatywna AI to nowa dziedzina. Krajobraz zagrożeń i szans prawdopodobnie w nadchodzących tygodniach, miesiącach i latach szybko się zmieni. Nowe przypadki użycia są wciąż testowane, a nowe modele prawdopodobnie zostaną opracowane w nadchodzących latach. W miarę jak generatywna sztuczna inteligencja coraz bardziej włączana jest do biznesu, życia społecznego i życia osobistego poszczególnych ludzi, możemy również spodziewać się ukształtowania nowych regulacji dotyczących jej zastosowania. Gdy organizacje zaczną eksperymentować – i tworzyć wartość – z tymi narzędziami, liderzy powinni trzymać rękę na pulsie, jeżeli chodzi o kwestie regulacji i ryzyka.
The state of AI in 2022—and a half decade in review, December 6, 2022, Michael Chui, Bryce Hall, Helen Mayhew, Alex Singla
McKinsey Technology Trends Outlook 2022, August 24, 2022, Michael Chui, Roger Roberts, and Lareina Yee
An executive’s guide to AI, 2020, Michael Chui, Vishnu Kamalnath, Brian McCarthy
What AI can and can’t do (yet) for your business, January 11, 2018, Michael Chui, James Manyika, Mehdi Miremadi