Streszczenie: W ostatnich dniach krążyła teza, że „polski jest najlepszym językiem dla AI”. Źródłem zamieszania był nowy benchmark ONERULER — test długiego kontekstu w 26 językach — w którym polszczyzna faktycznie wypadła najlepiej. To świetna wiadomość, ale z bardzo konkretnym zastrzeżeniem: dotyczy jednego typu zadań i specyficznych warunków testu. Nie oznacza automatycznie, że po polsku zawsze uzyskamy od modeli lepsze odpowiedzi niż po angielsku.
W świecie technologii pojawiła się sensacyjna wiadomość, która szybko podbiła polski internet: „Język polski jest najlepszy dla sztucznej inteligencji”. To informacja, która cieszy i daje powód do dumy. Zanim jednak menedżerowie i analitycy zaczną masowo tłumaczyć swoje polecenia i stawiać prompty po polsku, warto przyjrzeć się, co dokładnie odkryli naukowcy i co to realnie oznacza dla praktyki biznesowej.
Źródłem entuzjazmu jest praca naukowa (m.in. autorstwa polskiej badaczki, Marzeny Karpińskiej) zatytułowana „One ruler to measure them all”. Badacze przeprowadzili specyficzny test porównawczy (benchmark) dla modeli językowych, takich jak ChatGPT czy Gemini. Nie polegał on jednak na codziennej kreatywności czy analizie. Zadaniem AI było tu precyzyjne odnalezienie w gąszczu informacji konkretnych danych, na przykład wskazanie zdania zawierającego określoną liczbę. W tym jednym, bardzo technicznym zadaniu, modele posługujące się językiem polskim okazały się najskuteczniejsze, myląc się rzadziej niż te operujące w innych językach.
Warto dodać, że badacze odnotowali jeszcze dwa istotne fakty. Po pierwsze — wiele modeli (m.in. o3-mini-high) zaskakująco często błędnie twierdzi, że odpowiedź „nie istnieje”. Po drugie — gdy język instrukcji różni się od języka kontekstu, skuteczność potrafi się zmienić nawet o 20 punktów procentowych. To mocne przypomnienie, że sam język promptu bywa czynnikiem krytycznym.
Siła fleksji w długim kontekście
ONERULER zbadał, jak duże modele językowe radzą sobie z wydobywaniem i agregowaniem informacji w bardzo długich kontekstach — nawet do 128 tys. tokenów, czyli tekstów liczących setki stron. To wariacje zadań „igła w stogu siana” oraz proste agregacje, np. wyłowienie liczb i słów z potężnych fragmentów tekstu. W tym ustawieniu polski uplasował się na 1. miejscu, a angielski był dopiero szósty. Ten wynik nie dowodzi, że polski jest „lepszy” w ogólnym rozumieniu, ale pokazuje coś fascynującego. Eksperci, analizując te doniesienia, wskazują, że sukces może wynikać ze struktury naszego języka. Języki fleksyjne, jak polski, gdzie końcówki słów zmieniają się zależnie od kontekstu (odmiana przez przypadki), mogą oferować maszynie pewną przewagę.
W tym konkretnym teście, polegającym na przeszukiwaniu ogromnych ilości danych, gramatyczna precyzja polszczyzny mogła pomóc modelom AI lepiej śledzić zależności i zachować „pamięć” o kontekście. Różnica w skuteczności sięgała kilku punktów procentowych na korzyść polskiego, co w świecie AI jest wynikiem znaczącym.
Kiedy warto pisać prompty po polsku?
Przechodzimy do kluczowego pytania: czy w takim razie powinniśmy przestać pisać prompty po angielsku? Odpowiedź brzmi: niekoniecznie. Czy warto warto pisać prompty po polsku? Tak — zwłaszcza kiedy pracujesz na polskich treściach i oczekujesz precyzji w długich kontekstach. Czy polski jest „najlepszy dla AI” zawsze i wszędzie? Nie. To zależy od zadania, danych, tokenizacji i tego, czy instrukcje są w tym samym języku co źródło. Najrozsądniejszą polityką jest świadome bilingwalne podejście: polski tam, gdzie zwiększa trafność i zgodność, angielski tam, gdzie ułatwia dostęp do narzędzi, wzorców i globalnej dokumentacji. To podejście minimalizuje ryzyko i maksymalizuje zwrot z inwestycji w AI — bez ulegania medialnym uproszczeniom. W codziennej pracy z AI najważniejsza jest precyzja i jednoznaczność polecenia. Jeśli potrafimy sformułować problem bardziej precyzyjnie po polsku, używajmy polskiego. Jeśli jednak kontekst biznesowy lub techniczny jest łatwiejszy do opisania po angielsku, pozostanie on lepszym wyborem.
Prompty po polsku w firmie?
Jeśli pracujesz na polskich materiałach, chcesz znaleźć fakty w długich dokumentach albo utrzymać ścisłą zgodność z lokalnym słownictwem, pisanie po polsku jest nie tylko wygodne — może być optymalne. ONERULER sugeruje, że właśnie w takim scenariuszu wiele modeli zachowuje wysoką dokładność. Gdy dodatkowo zadbasz, by język instrukcji był zgodny z językiem źródła (np. polskie pytania do polskich umów), zmniejszasz ryzyko spadku jakości o wspomniane w badaniu kilkanaście–kilkadziesiąt punktów.
Są jednak momenty, gdy angielski nadal będzie rozsądnym wyborem. Jeśli prosisz o kod, pracujesz na bibliotekach z dokumentacją po angielsku, chcesz przywołać anglojęzyczne cytaty lub zależy Ci na stylu popularnych angielskich formatów (np. executive summary), to prompt po angielsku może dopasować model do dominujących w nim wzorców. Kiedy prosimy AI o strategię marketingową, analizę sentymentu, wygenerowanie kodu czy streszczenie raportu, wchodzimy na zupełnie inne pole gry. Modele AI są wciąż w przeważającej mierze trenowane na gigantycznych zbiorach danych w języku angielskim. Oznacza to, że angielski często pozostaje językiem o największej „gęstości” niuansów, kontekstów biznesowych i technicznych, które AI rozumie. Ten wniosek stoi w zgodzie z ostrożnym komentarzem językoznawców: nie istnieje „jeden najlepszy język dla AI” we wszystkich zastosowaniach.
Z perspektywy zarządów i menedżerów nie chodzi tu o prestiż języka, lecz o produktywność i ryzyko. Jeśli Twoje zbiory wiedzy są po polsku, masz konkretne uzasadnienie, by wdrażać polskojęzyczne przepływy pracy — szczególnie w zadaniach typu przeszukiwanie dokumentów, kontrola zgodności i due diligence. Jeżeli zespół działa w środowisku międzynarodowym, polityka „English-first” nadal ma sens w obszarach kodu, integracji i stylów prezentacyjnych. Najważniejsze jest świadome przełączanie kontekstu językowego, a nie wiara w jedną złotą regułę.
Werdykt: „tak, ale…”
Najpraktyczniejsza zasada brzmi: dopasuj język do celu. Gdy celem jest precyzyjne wyszukiwanie informacji w polskich treściach — wybierz polski. Gdy potrzebujesz kompatybilności z anglojęzycznym ekosystemem narzędzi, konwencji i przykładów — wybierz angielski. A jeśli projekt jest wielojęzyczny, rozważ rozdzielenie etapów: polskie instrukcje do polskich danych, a finalny output tłumaczony na język odbiorcy. Takie „zszywanie” etapów zmniejsza ryzyko strat jakości wynikających z mieszania języka promptu i kontekstu, o czym przypomina sam benchmark.
Doniesienia o wyższości języka polskiego to intrygująca ciekawostka naukowa i ważny sygnał dla badaczy. Pokazuje, że monolityczny świat AI zdominowany przez angielski zaczyna dostrzegać wartość w różnorodności językowej. Dla praktyki biznesowej jednak realny wniosek nie dotyczy wyboru między polskim a angielskim. Kluczem do efektywności AI jest jakość promptu – jego klarowność, logika i dostarczenie maszynie odpowiedniego kontekstu. Niezależnie od języka, wygrywa ten, kto potrafi najprecyzyjniej formułować myśli. Odkrycie naukowców jest więc przede wszystkim zaproszeniem do dalszych badań, a nie gotową receptą na zmianę strategii promptowania.
Zobacz też:


