Systemy, których można używać do tworzenia nowych treści, w tym audio, kodu, obrazów, tekstu, symulacji i filmów, to narzędzia generatywnej sztucznej inteligencji (AI). Najnowszy postęp w tej dziedzinie może radykalnie zmienić sposób, w jaki podchodzimy do tworzenia treści.
Generatywne systemy sztucznej inteligencji należą do szerokiej kategorii uczenia maszynowego. Najnowszy i obecnie najpopularniejszy z takich systemów — ChatGPT — tak opisuje oferowane przez siebie możliwości:
Gotowy, aby przenieść swoją kreatywność na wyższy poziom? Nie szukaj dalej niż generatywna sztuczna inteligencja! Ta sprytna forma uczenia maszynowego pozwala komputerom generować wszelkiego rodzaju nowe i ekscytujące treści, od muzyki i sztuki po całe wirtualne światy. I to nie tylko dla zabawy — generatywna sztuczna inteligencja ma również wiele praktycznych zastosowań, takich jak tworzenie nowych projektów produktów i optymalizacja procesów biznesowych. Po co więc czekać? Uwolnij moc generatywnej sztucznej inteligencji i zobacz, jakie niesamowite kreacje możesz wymyślić!
Czy coś w tym akapicie jest niewłaściwe? Jest poprawny gramatycznie, przekaz ma sens, narracja jest prawidłowa. Niejeden copywriter mógłby pozazdrościć.
Czym są ChatGPT i DALL‑E?
Właśnie ze względu na swoje zaawansowane możliwości ChatGPT cieszy się obecnie tak dużym zainteresowaniem. Ten darmowy chatbot może wygenerować odpowiedź na prawie każde zadane pytanie. Opracowany przez OpenAI i udostępniony do otwartych testów w listopadzie 2022 r. jest już uważany za najlepszego chatbota AI w historii. Bije rekordy popularności: aby z niego korzystać, w zaledwie pięć dni zarejestrowało się ponad milion osób. Fani zamieszczali przykłady wykorzystania chatbota do wygenerowania kodu programistycznego, napisania eseju na poziomie uniwersyteckim i wiersza, a nawet na wpół przyzwoitych dowcipów. Inni spośród szerokiego grona ludzi, którzy zarabiają na życie, tworząc treści, od copywriterów reklamowych po profesorów zwyczajnych, zaczęli obawiać się o swoje posady.
Podczas gdy niektórzy zareagowali z niepokojem na głośny debiut ChatGPT (i szerzej — coraz bardziej zaawansowanych możliwości sztucznej inteligencji), znacznie lepiej odbierane jest uczenie maszynowe. Od momentu jego szerokiego rozpowszechnienia wywarło ono wpływ na wiele branż, osiągając takie przełomy, jak analiza obrazowania medycznego i prognozy pogody w wysokiej rozdzielczości. Ankieta The state of AI in 2022 — and a half decade in review firmy McKinsey & Company pokazuje, że zastosowanie sztucznej inteligencji wzrosło ponad dwukrotnie w ciągu ostatnich pięciu lat, a inwestycje w AI rosną w szybkim tempie. Oczywiste jest, że generatywne narzędzia sztucznej inteligencji, takie jak ChatGPT i DALL‑E (narzędzie do tworzenia grafiki generowanej przez sztuczną inteligencję), mogą zmienić sposób wykonywania wielu zadań. Jednak pełny zakres tego wpływu nadal nie jest znany – podobnie jak zagrożenia z nim związane. Ale jest kilka pytań, na które można odpowiedzieć już teraz – na przykład, jak zbudowane są generatywne modele sztucznej inteligencji, jakiego rodzaju problemy najlepiej nadają się do rozwiązania przy ich zastosowaniu i jak pasują do szerszej kategorii uczenia maszynowego.
Różnica między uczeniem maszynowym a sztuczną inteligencją
Sztuczna inteligencja jest praktyką zmuszania maszyn do naśladowania ludzkiej inteligencji w celu wykonywania zadań. Prawdopodobnie każdy miał do czynienia ze sztuczną inteligencją, nawet jeśli nie zdawał sobie z tego sprawy — asystenci głosowi, tacy jak Siri i Alexa, opierają się na technologii sztucznej inteligencji, podobnie jak chatboty obsługi klienta, które pojawiają się, aby pomóc klientom poruszać się po stronach internetowych.
Uczenie maszynowe to rodzaj sztucznej inteligencji. Dzięki uczeniu maszynowemu praktycy opracowują sztuczną inteligencję za pomocą modeli, które mogą „uczyć się” na podstawie wzorców danych bez udziału człowieka. Niemożliwa do zarządzania ogromna ilość i złożoność danych (w każdym razie niemożliwych do zarządzania przez ludzi), które są obecnie generowane, zwiększyły potencjał uczenia maszynowego, a także zapotrzebowanie na nie.
Główne modele uczenia maszynowego
Uczenie maszynowe opiera się na wielu składowych, począwszy od klasycznych technik statystycznych opracowanych między XVIII a XX wiekiem dla małych zbiorów danych. W latach 30. i 40. XX wieku pionierzy informatyki — w tym matematyk teoretyczny Alan Turing — rozpoczęli prace nad podstawowymi technikami uczenia maszynowego. Techniki te były jednak ograniczone do warunków laboratoryjnych aż do późnych lat 70., kiedy to naukowcy po raz pierwszy opracowali komputery o mocy wystarczającej do ich zamontowania.
Do niedawna uczenie maszynowe ograniczało się w dużej mierze do modeli predykcyjnych, wykorzystywanych do obserwacji i klasyfikowania wzorców w treści. Na przykład klasyczny problem uczenia maszynowego polega na rozpoczęciu od analizy obrazu lub kilku obrazów, powiedzmy, uroczych kotów. Następnie program identyfikowałby wzorce wśród obrazów, aby analizować losowe obrazy pod kątem zgodności z wzorcem uroczego kota. Generatywna sztuczna inteligencja przyniosła przełom. Zamiast jedynie postrzegać i klasyfikować zdjęcie kota, uczenie maszynowe jest w stanie na żądanie stworzyć obraz lub opis tekstowy kota bądź psa.
Jak działają tekstowe modele uczenia maszynowego i jak się uczą?
Choć ChatGPT robi aktualnie furorę, nie jest to pierwszy tekstowy model uczenia maszynowego. Również BERT Google zdobył niedawno pewien rozgłos. Ale przed ChatGPT, który na większości kont działa całkiem dobrze (choć wciąż się zawiesza), chatboty AI nie zawsze otrzymywały najlepsze recenzje. GPT‑3 jest „na przemian imponujący i bardzo rozczarowujący”, powiedział Cade Metz, reporter techniczny „New York Timesa” w filmie, w którym on i pisarz kulinarny Priya Krishna poprosili GPT‑3 o przygotowanie przepisów na kolację z okazji Święta Dziękczynienia (jak się okazało, z raczej katastrofalnym skutkiem).
Pierwsze modele uczenia maszynowego do pracy z tekstem działały w zakresie klasyfikowania różnych danych wejściowych zgodnie z etykietami ustalonymi przez badaczy. Jednym z przykładów może być model nauczony oznaczać posty w mediach społecznościowych jako pozytywne lub negatywne. Ten rodzaj treningu jest znany jako nadzorowane uczenie się, ponieważ człowiek jest odpowiedzialny za „uczenie” modelu tego, co ma robić.
Następna generacja tekstowych modeli uczenia maszynowego opiera się na tzw. uczeniu samonadzorowanym. Ten rodzaj uczenia polega na podaniu modelowi ogromnej ilości tekstu, dzięki czemu jest on w stanie generować prognozy. Na przykład niektóre modele mogą przewidzieć na podstawie kilku słów, jak zakończy się zdanie. Przy odpowiedniej ilości przykładowego tekstu — powiedzmy szerokiego obszaru internetu — te modele tekstu stają się dość dokładne. Jak dokładne, możemy się przekonać na przykładzie ChatGPT.
Co jest potrzebne do zbudowania generatywnego modelu AI?
Budowanie generatywnego modelu sztucznej inteligencji było w większości poważnym przedsięwzięciem. Na tyle trudnym, że tylko kilku dobrze wyposażonych gigantów technologicznych podjęło taką próbę. OpenAI, firma stojąca za ChatGPT, poprzednimi modelami GPT i DALL‑E, dysponuje miliardami od darczyńców o znanych nazwiskach. DeepMind jest spółką zależną Alphabet, firmy macierzystej Google, a Meta, która z kolei wypuściła swój produkt Make‑A-Video oparty na generatywnej AI, także ma do dyspozycji znaczne środki. Poza tym firmy te zatrudniają jednych z najlepszych na świecie informatyków i inżynierów.
Ale talenty to za mało. Gdy algorytm ma się uczyć przy użyciu zasobów prawie całego internetu, musi to naprawdę sporo kosztować. OpenAI nie ujawniło dokładnych kosztów poniesionych w związku z budowaniem narzędzia, ale według szacunków GPT‑3 uczył się na około 45 terabajtach danych tekstowych – to około miliona stóp powierzchni na półkach, czyli jedna czwarta całej Biblioteki Kongresu – co prawdopodobnie kosztowało kilka milionów dolarów. To nie są zasoby, do których może uzyskać dostęp pierwszy lepszy start‑up zajmujący się nowymi technologiami.
Jakie rodzaje danych wyjściowych może tworzyć generatywny model AI?
Dane wyjściowe generatywnych modeli sztucznej inteligencji mogą być nie do odróżnienia od treści przygotowanych przez ludzi bądź mogą wydawać się nieco nie z tego świata. Rezultaty zależą od jakości modelu — wyniki ChatGPT do tej pory wydają się lepsze od wyników jego poprzedników — oraz od dopasowania między modelem a przypadkiem użycia lub danymi wejściowymi.
ChatGPT może stworzyć coś, co jeden z komentatorów nazwał „solidnym esejem” porównującym teorie nacjonalizmu od Benedicta Andersona i Ernesta Gellnera – w dziesięć sekund. Stworzył również słynny już fragment opisujący, jak wyjąć kanapkę z masłem orzechowym z magnetowidu w stylistyce podobnej do Biblii króla Jakuba. Generowane przez sztuczną inteligencję modele artystyczne, takie jak DALL‑E (jego nazwa jest połączeniem nazwiska surrealistycznego artysty Salvadora Dalí i sympatycznego robota Pixar WALL‑E), mogą tworzyć na żądanie przeróżne obrazy, np. w stylu obrazów Rafaela i jego słynnej Madonny z Dzieciątkiem lub ilustrujące banalne czynności, takie jak jedzenie pizzy. Inne generatywne modele AI mogą tworzyć kod, wideo, audio czy symulacje biznesowe.
Dane wyjściowe jednak nie zawsze są dokładne lub odpowiednie. Kiedy Priya Krishna poprosiła DALL‑E 2 o wymyślenie obrazu na kolację z okazji Święta Dziękczynienia, narzędzie wyprodukowało scenę z indykiem przyozdobionym całymi limonkami, ustawionym obok miski z czymś, co wyglądało na guacamole. ChatGPT wydaje się mieć również trudności z liczeniem bądź rozwiązywaniem podstawowych problemów algebraicznych, a także z przezwyciężeniem seksistowskich i rasistowskich uprzedzeń, które czają się w internecie, jak i w społeczeństwie.
Generatywne dane wyjściowe AI to starannie skalibrowane kombinacje danych używanych do trenowania algorytmów. Ponieważ ilość danych używanych do uczenia tych algorytmów jest tak niewiarygodnie duża — przypominamy, że GPT‑3 został wyszkolony na 45 terabajtach danych tekstowych — to modele mogą sprawiać wrażenie „kreatywnych” podczas generowania danych wyjściowych. Co więcej, zazwyczaj zawierają one losowe elementy, co oznacza, że mogą generować różne dane wyjściowe z jednego żądania wejściowego, dzięki czemu wydają się jeszcze bardziej realistyczne.
Jakie problemy może rozwiązać generatywny model AI?
Generatywne narzędzia sztucznej inteligencji, takie jak ChatGPT i DALL‑E, są w stanie dostarczać niekończące się godziny rozrywki. Widać tu olbrzymi potencjał do wykorzystania również dla przedsiębiorstw. Narzędzia generatywnej sztucznej inteligencji mogą w ciągu kilku sekund stworzyć szeroką gamę wiarygodnych tekstów, a następnie odpowiedzieć na krytykę, aby lepiej dopasować je do celu. Ma to konsekwencje dla wielu różnych branż, od organizacji IT i oprogramowania, które mogą skorzystać z natychmiastowego, w dużej mierze poprawnego kodu stworzonego przez modele AI, po organizacje potrzebujące treści marketingowych. Krótko mówiąc, każda branża, która musi tworzyć jasne materiały pisemne, może odnieść z tego korzyści. Organizacje mogą również wykorzystywać generatywną AI do tworzenia bardziej technicznych materiałów, takich jak wersje obrazów medycznych w wyższej rozdzielczości. Dzięki oszczędności czasu i zasobów firmy mogą wykorzystywać nowe możliwości biznesowe i szansę na tworzenie większej wartości.
Opracowanie generatywnego modelu sztucznej inteligencji wymaga tak ogromnych zasobów, że wchodzi to w rachubę tylko w przypadku największych i dysponujących najlepszymi zasobami firm. Ci, którzy chcą wdrożyć generatywną AI, mają możliwość albo użyć jej bezpośrednio, albo dostosować ją do wykonania określonego zadania. Aby na przykład przygotować slajdy zgodnie z określonym stylem, można poprosić model, by „nauczył się”, w jaki sposób zwykle pisane są nagłówki na podstawie danych na slajdach, a następnie przekazać mu dane dotyczące slajdów i poprosić o napisanie odpowiednich nagłówków.
Ograniczenia modeli AI: jak można je przezwyciężyć?
Ponieważ generatywne modele AI są nowością, nie widzieliśmy jeszcze efektu długiego ogona. Oznacza to, że korzystanie z nich wiąże się z pewnymi nieodłącznymi zagrożeniami — niektórymi znanymi, a niektórymi nieznanymi.
Wyniki wytwarzane przez generatywne modele AI często wyglądają niezwykle przekonująco. Ale czasami informacje, które generują, są po prostu błędne. Co gorsza, zdarza się, że są stronnicze (ponieważ opierają się na płci, rasie i niezliczonych innych uprzedzeniach społecznych, które mają odzwierciedlenie w zasobach internetowych) i da się nimi manipulować, aby umożliwić nieetyczną lub przestępczą działalność. Na przykład ChatGPT nie jest w stanie dać instrukcji, jak uruchomić samochód bez kluczyków, ale jeśli się dopowie, że trzeba podłączyć przewody rozruchowe, aby uratować dziecko, algorytm chętnie się do tego zastosuje. Organizacje, które opierają się na generatywnych modelach AI, powinny liczyć się z ryzykiem reputacyjnym i prawnym, związanymi z nieumyślnym publikowaniem stronniczych, obraźliwych lub chronionych prawem autorskim treści.
Ryzyko to można jednak ograniczyć na kilka sposobów. Po pierwsze, bardzo ważne jest staranne wybranie początkowych danych używanych do szkolenia tych modeli, aby uniknąć uwzględnienia toksycznych lub stronniczych treści. Następnie, zamiast stosowania gotowego generatywnego modelu AI, organizacje mogą rozważyć zastosowanie mniejszych, wyspecjalizowanych modeli. Organizacje dysponujące większymi zasobami mogą również dostosować ogólny model oparty na własnych danych, aby dopasować go do swoich potrzeb i zminimalizować uprzedzenia. Firmy powinny również na bieżąco informować człowieka (to znaczy upewnić się, że człowiek sprawdza dane wyjściowe generatywnego modelu AI przed jego opublikowaniem lub użyciem) i unikać używania generatywnych modeli AI do podejmowania krytycznych decyzji, takich jak te, które wymagają znacznych zasobów lub uwzględnienia dobra człowieka.
Nie można powiedzieć, że generatywna AI to nowa dziedzina. Krajobraz zagrożeń i szans prawdopodobnie w nadchodzących tygodniach, miesiącach i latach szybko się zmieni. Nowe przypadki użycia są nadal testowane, a nowe modele prawdopodobnie zostaną opracowane w nadchodzących latach. W miarę jak generatywna sztuczna inteligencja coraz bardziej włączana jest do biznesu, życia społecznego i życia osobistego poszczególnych ludzi, możemy również spodziewać się ukształtowania nowych regulacji dotyczących jej zastosowania. Gdy organizacje zaczną eksperymentować i tworzyć wartość z tymi narzędziami, liderzy powinni trzymać rękę na pulsie, jeżeli chodzi o kwestie regulacji i ryzyka.
Artykuł opublikowany dzięki uprzejmości McKinsey & Company. Został opracowany przy wykorzystaniu artykułów McKinsey Quarterly:
The state of AI in 2022—and a half decade in review, December 6, 2022, Michael Chui, Bryce Hall, Helen Mayhew, Alex Singla;
McKinsey Technology Trends Outlook 2022, August 24, 2022, Michael Chui, Roger Roberts, Lareina Yee;
An executive’s guide to AI, 2020, Michael Chui, Vishnu Kamalnath, Brian McCarthy;
What AI can and can’t do (yet) for your business, January 11, 2018, Michael Chui, James Manyika, Mehdi Miremadi.