Analiza budowy i wdrażania dużych modeli językowych ujawnia, które podmioty mogą najwięcej zyskać oraz gdzie nowi gracze odnajdą najlepsze perspektywy.
Od publicznego uruchomienia ChatuGPT dokonano olbrzymich inwestycji w technologię z zakresu sztucznej inteligencji (AI), w szczególności głębokiego uczenia i przetwarzania języka naturalnego. Fundusze venture capital włożyły pieniądze w start- -upy generatywnej AI, a korporacje zwiększyły wydatki na tę technologię w nadziei na automatyzację swoich procesów. Ekscytacja jest uzasadniona. Wczesne badania wykazały, że generatywna AI może znacząco zwiększyć produktywność. Część tych efektów można uzyskać poprzez wspomaganie ludzkiej pracy narzędziami AI, a część – poprzez jej zastępowanie.
Nadal jednak nie wiadomo, kto przechwyci wartość z tego gwałtownie rozwijającego się rynku i co ten podział zdeterminuje. Aby odpowiedzieć na te pytania, przeanalizowaliśmy ekosystem generatywnej AI – szeroko podzielony na infrastrukturę komputerową, dane, modele bazowe, modele dostrojone oraz aplikacje – aby zidentyfikować obszary, w których można się wyróżnić. Mając świadomość, że istnieją generatywne modele AI przeznaczone do tworzenia tekstów, obrazów, dźwięków i wideo, w całej naszej dyskusji będziemy się posługiwać przykładami zaczerpniętymi z modeli tekstowych (dużych modeli językowych, czyli LLM).
Infrastruktura obliczeniowa. U podstaw ekosystemu generatywnej AI leży specjalistyczna infrastruktura obliczeniowa zasilana przez wysokowydajne jednostki przetwarzania grafiki (GPU), na których modele uczenia maszynowego są trenowane i uruchamiane. Aby zbudować nowy model lub usługę generatywnej AI, firma może rozważyć zakup GPU i powiązanego sprzętu do stworzenia infrastruktury niezbędnej do trenowania i uruchamiania dużego modelu językowego (LLM) lokalnie. Prawdopodobnie byłoby to jednak kosztowne i niepraktyczne, zważywszy na fakt, że taka infrastruktura jest powszechnie dostępna za pośrednictwem głównych dostawców chmury, takich jak Amazon Web Services (AWS), Google Cloud i Microsoft Azure.
Dane. Modele generatywnej AI są trenowane na ogromnych ilościach danych z internetu. Na przykład dane treningowe dla GPT‑3 OpenAI obejmowały Common Crawl, publicznie dostępne repozytorium danych z web crawlingu (automatyczne przeglądanie stron internetowych i zapisywanie ich zawartości – przyp. red.), a także Wikipedię, książki online i inne źródła. Wykorzystanie takich zbiorów danych jak Common Crawl oznacza, że dane z wielu stron internetowych, takich jak New York Times i Reddit, zostały przetworzone podczas procesu treningowego. Ponadto modele bazowe zawierają także dane specyficzne dla określonych domen, które są pobierane z internetu, licencjonowane od partnerów lub kupowane na rynkach danych takich jak Snowflake Marketplace. Chociaż twórcy modeli AI informują o tym, jak model został trenowany, nie udostępniają szczegółowych informacji na temat pochodzenia swoich źródeł danych treningowych. Niemniej badacze byli w stanie ujawnić różne źródła danych używane do trenowania modeli AI, wprowadzając specyficzne komendy do modelu (prompt injection attacks) tak, by ten ujawnił, na podstawie jakich źródeł był uczony.