Decyzja, czy dane rozwiązanie z zastosowaniem sztucznej inteligencji jest warte wdrożenia, wymaga od menedżerów nie tylko zapoznania się z wynikami raportów, ale bezpośredniej obserwacji, na podstawie jakich danych wzorcowych trenowano oraz testowano konkretny model AI.
W dynamicznie rozwijającym się i mocno konkurencyjnym obszarze sztucznej inteligencji (artificial intelligence, AI) zapewnienia programistów, jakoby narzędzia AI były w stanie dokonywać prognoz istotnych zjawisk, i to z dużą dozą dokładności, są głównym argumentem mającym przekonać potencjalnych klientów o wartości tych rozwiązań. A ponieważ liderom firm, jako osobom niebędącym ekspertami w tej dziedzinie, może być bardzo trudno ocenić narzędzia, mogą oni dać się omamić fantastycznym wskaźnikom skuteczności, podanym w materiałach sprzedażowych. Jednak często kończy się to wdrożeniami, które nie spełniają oczekiwań, a co gorsza, mogą być ryzykowne dla firmy.
Przez 11 miesięcy obserwowaliśmy działania menedżerów z wiodącej organizacji z sektora opieki zdrowotnej przy wewnętrznych projektach pilotażowych dla pięciu narzędzi AI. W przypadku każdego rozwiązania obiecywano fantastyczne wyniki, jednak kilka z nich wypadło naprawdę słabo w pilotażu. Analizując proces oceny tych narzędzi, doszliśmy do wniosku, że aby skutecznie określić jakość danego modelu wykorzystującego sztuczną inteligencję, trzeba poznać i zrozumieć jego dane wzorcowe (ground truth). W tym artykule wyjaśniamy, czym one są oraz w jaki sposób znajomość tych danych może pomóc menedżerom trafniej ocenić, na ile konkretne rozwiązanie AI poprawi lub pogorszy jakość podejmowanych w organizacji decyzji...