Přelom v humanoidní robotice: Stroj napodobuje rty bez jediného pravidla
Když se lidé baví tváří v tvář, jejich pozornost se neupíná jen na slova. Velkou roli hrají rty, mimika a drobné pohyby obličeje, které podvědomě čteme. Právě tady roboti dlouhodobě selhávali. I technicky vyspělé stroje působily při mluvení toporně, někdy až znepokojivě. Důvodem nebyl špatný zvuk, ale nepřesvědčivá tvář.
Tento problém se odborně označuje jako „uncanny valley“. Robot je už dost podobný člověku na to, aby nás mátl, ale stále ne dost dobrý, aby působil přirozeně. Nejcitlivějším místem je obličej a zejména ústa. Lidský mozek je extrémně vnímavý k drobným chybám v mimice a právě ty dokážou během vteřiny zničit dojem přirozené komunikace.
Robot, který se učí pozorováním
Výzkumníci z Columbia Engineering přišli s jiným přístupem. Místo aby robotovi diktovali, jak má při jednotlivých hláskách hýbat rty, nechali ho učit se podobně jako člověka. Nejdřív sám sebe.
Robot byl postaven před zrcadlo a začal provádět tisíce náhodných pohybů obličeje. Postupně se naučil, jak jeho 26 drobných motorů ovlivňuje tvar úst a výraz tváře. Teprve když pochopil vlastní „obličej“, dostal další úkol. Sledovat lidi.
Vědci mu pustili hodiny videí, převážně běžné řeči a zpěvu dostupného online. Systém analyzoval, jak se lidská ústa mění v závislosti na zvuku, a tyto informace propojil s vlastním modelem obličeje. Výsledkem bylo, že robot dokázal převádět slyšený zvuk přímo do pohybu rtů, aniž by rozuměl významu slov.
Výsledky byly natolik přesvědčivé, že je tým publikoval v odborném časopise Science Robotics. Robot zvládl synchronizovat rty s řečí v několika jazycích a dokonce se „připojil“ ke zpěvu. Nešlo o dokonalou imitaci, některé souhlásky mu dělaly potíže, ale základní rytmus a načasování už působily překvapivě lidsky.
Proč jsou rty důležitější než chůze
Hlavní autor projektu Hod Lipson upozorňuje, že vývoj humanoidních robotů se dlouho soustředil hlavně na nohy a ruce. Chůze, rovnováha, manipulace s předměty. To všechno je důležité, ale při kontaktu s lidmi rozhoduje něco jiného. Výraz.
Podle výzkumníků je obličej klíčovým komunikačním kanálem. Malý nesoulad mezi zvukem a pohybem rtů vnímáme mnohem citlivěji než špatně provedený krok. Pokud má robot působit přirozeně v roli asistenta, učitele nebo třeba společníka pro seniory, musí zvládnout právě tuto jemnou rovinu komunikace.
Spoluautor studie Yuhang Hu zdůrazňuje, že nejde jen o technickou dokonalost. Přirozený pohyb obličeje vytváří emoční odezvu. Člověk má tendenci reagovat na úsměv, pohled nebo synchronizovanou řeč. Jakmile se tyto prvky spojí s konverzační umělou inteligencí, vzniká úplně jiná kvalita interakce.
Výzkum má samozřejmě i svá rizika. Stroje, které dokážou působit lidsky a vyvolávat emoce, otevírají etické otázky. Autoři studie si to uvědomují a zdůrazňují, že podobné technologie je nutné vyvíjet opatrně a transparentně. Zároveň ale tvrdí, že bez realistické tváře se humanoidní roboti nikdy nestanou přirozenou součástí lidského prostředí.
Podle odhadů by se v příštích letech mohly vyrábět stovky milionů humanoidních robotů. Pokud mají skutečně fungovat mezi lidmi, budou potřebovat nejen ruce a nohy, ale i tvář, která nebude působit chladně nebo cize. Tento výzkum naznačuje, že cesta k přirozenější komunikaci už není jen teoretická, ale začíná se rýsovat v praxi.