Analiza budowy i wdrażania dużych modeli językowych ujawnia, które podmioty mogą najwięcej zyskać oraz gdzie nowi gracze odnajdą najlepsze perspektywy.
Od publicznego uruchomienia ChatuGPT dokonano olbrzymich inwestycji w technologię z zakresu sztucznej inteligencji (AI), w szczególności głębokiego uczenia i przetwarzania języka naturalnego. Fundusze venture capital włożyły pieniądze w start- -upy generatywnej AI, a korporacje zwiększyły wydatki na tę technologię w nadziei na automatyzację swoich procesów. Ekscytacja jest uzasadniona. Wczesne badania wykazały, że generatywna AI może znacząco zwiększyć produktywność. Część tych efektów można uzyskać poprzez wspomaganie ludzkiej pracy narzędziami AI, a część – poprzez jej zastępowanie.
Nadal jednak nie wiadomo, kto przechwyci wartość z tego gwałtownie rozwijającego się rynku i co ten podział zdeterminuje. Aby odpowiedzieć na te pytania, przeanalizowaliśmy ekosystem generatywnej AI – szeroko podzielony na infrastrukturę komputerową, dane, modele bazowe, modele dostrojone oraz aplikacje – aby zidentyfikować obszary, w których można się wyróżnić. Mając świadomość, że istnieją generatywne modele AI przeznaczone do tworzenia tekstów, obrazów, dźwięków i wideo, w całej naszej dyskusji będziemy się posługiwać przykładami zaczerpniętymi z modeli tekstowych (dużych modeli językowych, czyli LLM).
Infrastruktura obliczeniowa. U podstaw ekosystemu generatywnej AI leży specjalistyczna infrastruktura obliczeniowa zasilana przez wysokowydajne jednostki przetwarzania grafiki (GPU), na których modele uczenia maszynowego są trenowane i uruchamiane. Aby zbudować nowy model lub usługę generatywnej AI, firma może rozważyć zakup GPU i powiązanego sprzętu do stworzenia infrastruktury niezbędnej do trenowania i uruchamiania dużego modelu językowego (LLM) lokalnie. Prawdopodobnie byłoby to jednak kosztowne i niepraktyczne, zważywszy na fakt, że taka infrastruktura jest powszechnie dostępna za pośrednictwem głównych dostawców chmury, takich jak Amazon Web Services (AWS), Google Cloud i Microsoft Azure.
Dane. Modele generatywnej AI są trenowane na ogromnych ilościach danych z internetu. Na przykład dane treningowe dla GPT‑3 OpenAI obejmowały Common Crawl, publicznie dostępne repozytorium danych z web crawlingu (automatyczne przeglądanie stron internetowych i zapisywanie ich zawartości – przyp. red.), a także Wikipedię, książki online i inne źródła. Wykorzystanie takich zbiorów danych jak Common Crawl oznacza, że dane z wielu stron internetowych, takich jak New York Times i Reddit, zostały przetworzone podczas procesu treningowego. Ponadto modele bazowe zawierają także dane specyficzne dla określonych domen, które są pobierane z internetu, licencjonowane od partnerów lub kupowane na rynkach danych takich jak Snowflake Marketplace. Chociaż twórcy modeli AI informują o tym, jak model został trenowany, nie udostępniają szczegółowych informacji na temat pochodzenia swoich źródeł danych treningowych. Niemniej badacze byli w stanie ujawnić różne źródła danych używane do trenowania modeli AI, wprowadzając specyficzne komendy do modelu (prompt injection attacks) tak, by ten ujawnił, na podstawie jakich źródeł był uczony.
Modele bazowe. To sieci neuronowe szeroko trenowane na ogromnych zbiorach danych, bez optymalizacji pod kątem konkretnych dziedzin czy zadań końcowych, takich jak sporządzanie umów prawnych czy odpowiadanie na techniczne pytania dotyczące produktu. Modele językowe bazowe obejmują modele z kodem zamkniętym, takie jak GPT‑4 od OpenAI i Gemini od Google’a, a także modele otwarte, takie jak Llama‑2 od Meta i Falcon 40B od Instytutu Innowacji Technologicznych w Zjednoczonych Emiratach Arabskich. Wszystkie te modele opierają się na architekturze transformatora (rodzaj modelu uczenia maszynowego, który jest szczególnie skuteczny w przetwarzaniu języka naturalnego – przyp. red.), opisanej w przełomowej pracy Ashisha Vaswaniego i jego współpracowników w 2017 roku pt. Attention Is All You Need. Choć można próbować wejść na rynek generatywnej AI, budując nowy model bazowy, dane, zasoby obliczeniowe i ekspertyza techniczna potrzebne do stworzenia i trenowania wysoko wydajnych modeli stanowią znaczną barierę, co skutkuje ograniczoną liczbą wysokiej jakości dużych modeli bazowych.
RAG‑i i modele dostrojone. Modele bazowe są wszechstronne i radzą sobie dobrze z wieloma różnymi zadaniami językowymi, ich wydajność jednak może być ograniczona w przypadku zadań wymagających bardzo szczegółowej wiedzy lub danych specyficznych dla konkretnej dziedziny. Aby uzyskać dobre wyniki w zadaniach dotyczących skomplikowanych kwestii, konieczne może być wykorzystanie bardziej szczegółowych danych dotyczących wybranej dziedziny. Do projektowania usługi, która pozwala wykorzystywać duży model językowy (LLM) do określonego celu, na przykład wspierania użytkowników w rozwiązywaniu problemów technicznych z produktem, można podejść na dwa sposoby.
Pierwsze podejście polega na stworzeniu usługi, która pobiera fragmenty informacji istotne dla użytkownika i dodaje je do instrukcji (prompt) wysyłanej do modelu bazowego. W przypadku pomocy użytkownikom w rozwiązywaniu problemów technicznych oznaczałoby to napisanie kodu, który wyodrębnia odpowiednie, czyli najbardziej związane z pytaniem użytkownika, fragmenty instrukcji obsługi produktu, po czym instruuje LLM, aby na tej podstawie odpowiedział na pytanie użytkownika. Takie podejście nazywa się generowaniem wspomaganym przez pobieranie (retrieval‑augmented generation, RAG). Co prawda modele bazowe mają ograniczenia dotyczące rozmiaru promptów, które są w stanie przyjąć, jednak mogą być one naprawdę duże i liczyć około 100 tysięcy słów. Decydując się na to podejście, trzeba liczyć się z kosztami, które obejmują koszty API modelu bazowego, rosnące wraz z rozmiarem prompta wejściowego i rozmiarem odpowiedzi generowanej przez LLM. W rezultacie im więcej informacji z instrukcji obsługi jest wysyłanych do LLM, tym wyższy jest koszt jego używania.
Alternatywnym podejściem do RAG‑ów, które jest droższe ze względu na wyższe początkowe koszty związane z obliczeniami, jest dostrojenie modelu. W przeciwieństwie do dostarczania fragmentów informacji z instrukcji obsługi (czyli kontekstu) za pomocą promptów, podejście to polega na dalszym trenowaniu sieci neuronowej modelu bazowego za pomocą danych specyficznych dla wybranej dziedziny. ChatGPT jest zaprojektowany do przyjmowania instrukcji i prowadzenia konwersacji z ludźmi. Dostrajanie obejmuje ponowne trenowanie wstępnie wytrenowanego modelu bazowego, takiego jak Llama czy GPT‑4, na zbiorze danych specyficznym dla konkretnej domeny.
Chociaż podejście RAG może wiązać się z wysokimi kosztami API, ponieważ modelowi trzeba dostarczyć długie prompty, jest łatwiejsze do wdrożenia niż podejście polegające na dostrajaniu. Do tego, decydując się na RAG, nie trzeba się liczyć z kosztami obliczeń związanych z ponownym trenowaniem sieci neuronowej na nowym zbiorze danych. W rezultacie podejście RAG ma niższe koszty początkowe, ale wyższe opłaty zmienne wynikające z przesyłania informacji do modelu bazowego za każdym razem, gdy końcowy użytkownik zadaje pytanie. Z kolei podejście z dostrajaniem, choć droższe na początku, ma potencjał do uzyskania lepszych wyników i po zakończeniu jest dostępne do przyszłego użytku bez potrzeby dostarczania kontekstu dla każdego zapytania, jak ma to miejsce w przypadku RAG. Firmy posiadające wiedzę techniczną mogą uznać, że warto zainwestować w budowę warstwy narzędziowej generatywnej AI, która umożliwia stosowanie metod dostrajania i RAG, zarówno dla własnych produktów, jak i w ramach usług świadczonych na rzecz innych firm.
Aplikacje LLM. Ostatnia warstwa ekosystemu generatywnej AI składa się z aplikacji, które można zbudować na podstawie modelu bazowego lub dostrojonego, aby obsługiwać konkretne przypadki użycia. Start‑upy stworzyły aplikacje do sporządzania projektów umów prawnych (Evisort), streszczania książek i scenariuszy filmowych (Jumpcut) czy nawet odpowiadania na pytania związane z rozwiązywaniem problemów technicznych (Alltius). Te aplikacje są wyceniane jak tradycyjne oprogramowanie w modelu SaaS (z miesięcznymi opłatami za użytkowanie), a ich koszty marginalne są głównie związane z opłatami za hosting w chmurze i opłatami API od modeli bazowych.
W ciągu ostatnich kilku miesięcy giganci technologiczni i fundusze venture capital poczynili ogromne inwestycje w każdą warstwę tego ekosystemu. Uruchomiono dziesiątki nowych modeli bazowych. Podobnie firmy stworzyły modele specyficzne dla zadań, dostrojone na podstawie własnych danych, mając nadzieję, że zapewnią im one przewagę nad konkurencją. Tysiące start‑upów budują aplikacje na bazie różnych modeli bazowych lub dostrojonych.
Dowiedz się z artykułu, jakie lekcje można wyciągnąć z chmury.