AI selhává v sociálním testu: Nová studie odhaluje zásadní slabinu
Vědecký tým z Johns Hopkins University publikoval přelomovou studii, která odhaluje zásadní slabinu současné umělé inteligence – neschopnost správně pochopit a popsat sociální interakce ve videích s dynamickým dějem. Tento nedostatek může zásadně ovlivnit vývoj technologií, které mají fungovat v těsném kontaktu s lidmi, například autonomních vozidel nebo asistenčních robotů.
„Umělá inteligence ve vozidle musí pochopit záměry chodců nebo řidičů. Měla by být schopná odhadnout, kdy se někdo chystá přejít silnici, nebo rozeznat, zda si dva lidé pouze povídají, nebo zda se připravují ke společnému pohybu,“ vysvětluje hlavní autorka studie Leyla Isik z katedry kognitivních věd. „Tohle výzkum jasně ukazuje – dnešní systémy tohle neumí.“
Když člověk porazí stroj
Studie probíhala poměrně jednoduše, ale zároveň velmi výmluvně. Účastníci z řad lidí sledovali třísekundová videa, na kterých byly zaznamenány různé sociální situace – interakce mezi lidmi, paralelní činnosti či zcela individuální aktivity. Úkolem bylo hodnotit, jak sociálně interaktivní daná scéna je.
Poté byl tentýž úkol zadán více než 350 různým modelům AI – jazykovým, obrazovým i videoanalytickým. Jazykové modely pracovaly s popisy scén, obrazové analyzovaly jednotlivé snímky a video modely celé videosekvence.
Výsledek? Lidé se na hodnocení většinou shodli, AI téměř nikdy. Jazykové modely měly nejblíže k lidskému vnímání, ale i ty selhávaly v přesnosti. Video modely byly lepší ve „čtení“ mozkové aktivity diváků, ale vůbec nedokázaly popsat, co se ve videích děje. Modely analyzující statické snímky často ani nepoznaly, zda spolu lidé komunikují.
Proč to AI neumí?
Podle výzkumníků je hlavní problém v samotné architektuře neuronových sítí, na kterých je současná AI postavena. Tyto sítě se totiž inspirovaly částí lidského mozku, která zpracovává statické obrazy – nikoliv částí odpovědnou za dynamické vnímání a sociální interakce.
„Nestačí rozpoznat obličej nebo objekt. Realita je proměnlivá, vztahy mezi lidmi nejsou statické. Umělá inteligence se musí naučit číst příběh scény, její kontext a dynamiku – a právě tady má dnešní vývoj velkou slepou skvrnu,“ upozorňuje spoluautorka výzkumu Kathy Garcia, která výsledky představila na prestižní konferenci International Conference on Learning Representations.
Zdroj: Shutterstock
Výzkum byl podpořen americkým Národním vědeckým fondem a Národním institutem duševního zdraví. Publikace vyšla také na serveru SciTechDaily.
Zjištění, že AI zatím zásadně selhává ve „čtení“ sociálních situací, má dalekosáhlé důsledky. Ovlivňuje to bezpečnost autonomních vozidel, schopnost robotů asistovat v domácnostech nebo práci a také rozvoj AI v oblastech, jako je vzdělávání nebo zdravotnictví.
AI dnes zvládne rozeznat předměty na fotce s obdivuhodnou přesností. Ale pokud nedokáže rozlišit, zda se dva lidé baví nebo hádají, může to vést ke katastrofickým důsledkům v reálném světě. Uvažte třeba samořiditelný autobus, který nedokáže správně vyhodnotit záměr skupiny lidí stojících na přechodu.
„Je jasné, že lidské mozky zpracovávají realitu zcela jiným způsobem, než současné modely AI. A právě to bude největší výzva příštích let – naučit stroje chápat nejen obraz, ale i význam,“ uzavírá Isik.