Google chce ovládat roboty pomocí AI chatu: Zprávy převede na programovací jazyk

7. 8. 2023 | Francesco | Novinky, Věda a technika

Zdroj: Shutterstock

Pro ovládání robota musíte být zkušený programátor, který dokáže pečlivě naprogramovat každý jeho pohyb. Vývojáři z Googlu ale pracují na novém jazykovém modelu, který by dokázal zpracovat obyčejnou textovou informaci od uživatele a převést ji do série příkazů a souřadnic pro robota. V praxi by si tak uživatel připadal, že komunikuje v podobném rozhraní, jako u ChatGPT.

V oblasti robotiky či humanoidních robotů bylo v poslední době nejvíce slyšet o společnosti Boston Dynamics. Její roboti totiž dokážou přímo kaskadérské kousky, běhat, skákat či přenášet těžká břemena. Za krátkým minutovým videem se ale skrývá takřka nekonečná práce programátorů, kteří ve složitém programovacím jazyku nastavily naprosto každý pohyb robota.

V praxi jsou tak tito roboti užiteční, pokud mají naprogramovanou jednu činnost, kterou vykonávají neustále dokola. Nyní ale společnost DeepMind, která je dceřinnou společností Googlu, přichází s dobrý nápadem – definovat některé kroky pomocí jazykového modelu. Jinými slovy by bylo možné robota ovládat a instruovat pomocí jazykových příkazů v reálném čase.

Tento jazykový model by pak mohl být podobný ChatGPT, takže by konverzace s robotem mohla být velice podobná konverzací s ChatGPT. Nová technologie nese název RT-2 s tím, že „RT“ znamená „Robotics transforemer“. Podle vývojářů ale spočívá největší výzva v tom, jak zpracovat obrázky či text tak, aby na výstupu byla řada akcí a pokynů smysluplných pro daného robota.

Aby toho docílili musí k robotu přistupovat novým či netradičním způsobem. Každá akce robota se totiž musí stát zdrojem nových a dalších akcí, podobně jako ChatGPT se trénuje z informací na internetu, aby generoval další informace. Tento pokus Googlu vypadá již poměrně slibně po dvou předchozích méně úspěšných pokusech v podobě PaLI-X a PaLM-E. Tyto modely ale pouze zjednodušeně kombinovaly data z textu s daty z obrázku.

PaLI-X pak zpracovává obrázkové a textové úlohy, ale PaLM-E již do jisté míry používá jazykové příkazy pro generování příkazů pro robota. Model RT je pak o něco dokonalejší, protože negeneruje jen plán akcí, ale také konkrétní souřadnice pohybu robota v prostoru. RT-2 je tak trénován k tomu, aby uměl robot věci zvednout, přemístit, položit, atd.

I kdyby se vývojářům povedlo sestavit dokonalý model, existuje stále jeden velký problém. Ke každému náročnému modelu potřebujete mít i obrovskou výpočetní sílu. Nejde však o vygenerování obecných informací, jako u ChatGPT, ale o vygenerování konkrétních instrukcí pro konkrétního robota. Právě to je podle vývojářů nejrizikovější místo pro další vývoj. V budoucnu se tak bude vývoj mimo jiné ubírat i snížením nároků na výpočetní techniku, aby robot mohl být obsluhován i z méně výkonného hardwaru.

Tagy: