Najpopularniejsze tematy:

Premium

Materiał dostępny tylko dla Subskrybentów

Nie masz subskrypcji? Dołącz do grona Subskrybentów i korzystaj bez ograniczeń!

Jesteś Subskrybentem? Zaloguj się

Premium

Subskrybenci wiedzą więcej!

Nie masz subskrypcji? Dołącz do grona Subskrybentów i korzystaj bez ograniczeń!

Wybierz wariant dopasowany do siebie!

Jesteś Subskrybentem? Zaloguj się

X
Następny artykuł dla ciebie
Wyświetl >>
Kto trenuje sztuczną inteligencję?

Proces trenowania AI, oparty na etykietowaniu danych, odkrywa nie tylko fascynujący świat technologii, ale także stawia przed nami echa etycznych wyzwań i problemów społecznych.

Trenowanie sztucznej inteligencji (AI) to proces, w którym człowiek „uczy” algorytm rozpoznawania pewnych wzorców. Taki trening może przyjmować różne formy, w zależności od rodzaju zadania i metodyki, ale w ogólnym sensie możemy mówić o procesie dostarczania algorytmowi danych treningowych wraz z odpowiednimi etykietami.

Etykietowanie danych (data labeling) może polegać np. na rozpoznawaniu i oznaczaniu na zaprezentowanych grafikach, gdzie znajdują się psy, a gdzie koty. Natomiast w przypadku recenzji produktu etykietowanie mogłoby polegać na określeniu, czy recenzja jest pozytywna, negatywna, czy neutralna.

Współcześnie istnieje wiele platform croudsourcingowych, które pozwalają na zaangażowanie dużej grupy ludzi właśnie do etykietowania i klasyfikowania danych treningowych. Firmy takie jak Toloka, Appen, Clickworker, Teemwork.AI i OneForma, łączą miliony pracowników zdalnych z platformami technologicznymi zlokalizowanymi w Dolinie Krzemowej. Publikują mikrozadania od swoich klientów (do których należą m.in. Amazon, Microsoft Azure, Salesforce, Google, Nvidia czy Adobe). W praktyce każda osoba z dostępem do komputera i sieci może oznaczać obrazy, transkrybować teksty czy wypełniać inne zadania związane z danymi. Oznacza to, że trenowanie sztucznej inteligencji nie wymaga, jak mogłoby się wydawać, zaawansowanych umiejętności programistycznych czy głębokiego zrozumienia matematyki i statystyki.

Clickworkerzy w erze kolonizacji danych

W ostatnim czasie wartość rynku gromadzenia i etykietowania danych dynamicznie wzrasta. Wyceniany w 2022 r. roku na 2,2 miliarda dolarów sektor ma osiągnąć aż 17,1 miliarda dolarów do 2030 roku. Podkreśla to znaczenie danych dla rozwoju nowoczesnych technologii, takich jak sztuczna inteligencja. Natomiast dostęp do różnorodnych, etykietowanych danych jest cennym zasobem dla współczesnych firm. Niestety globalne zjawisko croudsourcingu etykietowania danych wiąże się z kolejnym określanym jako data colonialism.

Kolonizacja danych odnosi się do sytuacji, w której firmy z krajów rozwiniętych korzystają z platform crowdsourcingowych do zbierania i etykietowania danych, przy wykorzystaniu pracy ludzi – głównie z krajów o niższych dochodach, takich jak Wenezuela, Afryka Wschodnia, Indie czy Filipiny.

Clickworkerzy, bo tak nazywają się osoby zajmujące się etykietowaniem danych, bardzo często decydują się na taką pracę ze względu na bardzo trudną sytuację finansową. Wciąż w bardzo wielu krajach stawka jednego lub dwóch dolarów za godzinę pracy jest o wiele większa, niż minimalna krajowa, dlatego tak kusi. Niestety ta liczna grupa przeważnie bardzo młodych ludzi nie zdaje sobie sprawy z tego, że na zarobienie kilku dolarów będą w rezultacie musieli poświęcić o wiele więcej czasu.

Często do wykonania określonego zadania clickworkerzy muszą poświęcić kilka godzin na przygotowanie się. Czasami wiąże się to po prostu z przeczytaniem paru artykułów w danej tematyce, jednak innym razem chodzi o pozyskanie konkretnych umiejętności. Niestety mają one krótki okres ważności, ponieważ branża szybko zmienia swoje priorytety. Pracownicy internetowi podkreślają też problemy związane z strukturą płatności, zwracając uwagę na niepewność dostępności zadań (nie pojawiają się one systematycznie) i brak rekompensaty za czas oczekiwania na nie – w gotowości przed komputerem.

Więźniowie doskonalą model językowy AI

W kontekście pracy związanej z etykietowaniem danych warto wspomnieć również o inicjatywie fińskiego start‑upu Metroc, który zatrudnia więźniów do pracy danymi, dążąc do doskonalenia swojego modelu językowego – tak aby „rozumiał” specyficzny żargon branży budowlanej. Jak zaznaczają pomysłodawcy projektu inicjatywa ma na celu nie tylko ulepszenie modelu językowego. Stawia sobie również za cel oferowanie więźniom różnorodnych możliwości zatrudnienia i (ich zdaniem) cennych umiejętności cyfrowych, wspierając tym samym ich reintegrację społeczną.

I choć z jednej strony można spojrzeć na ten projekt jako dostarczenie szansy na pracę w duchu rozwoju nowoczesnych technologii, krytycy wyrażają obawy co do wykorzystywania przez branżę pracowników z grupy podatnej na tanią pracę. Pojawiają się pytania dotyczące przenoszenia umiejętności zdobytych poprzez etykietowanie danych na zatrudnienie po opuszczeniu więzienia. Ponadto potencjalny sukces tego projektu stawia precedens, który może prowadzić do bardziej kontrowersyjnych form pracy więziennej związanej z AI.

Między technologią a etyką

Mimo że wszystkie platformy croudsourcingowe wymagają, aby każdy jej użytkownik miał ukończone 18 lat, to łagodne procesy weryfikacji wieku umożliwiają podjęcie współpracy z nimi także młodszym internautom. Większość wymaga bowiem jedynie przesłania zdjęcia dowodu osobistego i numeru konta bankowego. Dzieci wykorzystują zatem dane swoich rodziców lub innych starszych od siebie członków rodziny – po prostu się pod nich podszywając. W rezultacie bardzo często narażają nie tylko swoje dobre samopoczucie, ale i zdrowie psychiczne. Śledztwo WIRED ujawnia powszechność pracy nieletnich przy zadaniach związanych z identyfikacją obrazów lub modernizację treści dla dorosłych, związanych z przemocą i mową nienawiści.

Tego typu odkrycia powinny zaadresować pilną potrzebę zwiększenia świadomości, opracowania wytycznych i przeprowadzenia reform branżowych w celu rozwiązania systemowych problemów wykorzystywania ludzi przy pracy związanej z AI – szczególnie względem osób niepełnoletnich. Dotyczy to przede wszystkim tych firm, które oferują platformy crowdsourcingowe przeznaczone do etykietowania danych oraz tych, które korzystają z ich usług. Branżowi interesariusze winni już teraz podjąć odpowiednie kroki, w celu zapewnienia, że przyszłym rozwojem technologicznym będą kierować etyczne praktyki.


Najpopularniejsze tematy