Skąd możemy mieć pewność, że systemy algorytmiczne działają zgodnie z przeznaczeniem? Zestaw prostych testów może wspierać nawet nietechniczne organizacje w ocenie skuteczności działania ich narzędzi AI.
Sztuczna inteligencja, duże modele językowe (large language models; LLM) i inne algorytmy coraz częściej przejmują zadania tradycyjnie wykonywane przez ludzi. Decydują o tym, kto powinien dostać kredyt, pracę lub zostać przyjęty na studia, pomagają przy sporządzaniu raportów rocznych czy notatek dotyczących hospitalizacji.
Skąd jednak możemy mieć pewność, że te systemy działają zgodnie z oczekiwaniami, a komu mogą przez przypadek zaszkodzić?