ChatGPT odpovídá na více než polovinu programátorských otázek špatně
Mezi programátory panuje mnoho vtipů, které poukazují na fakt, že většina jejich práce je vyhledávání stejného problému na Stack Overflow. Tam jste ale museli buď dlouze vyhledávat nebo zadat svůj problém a čekat i týden, než vám někdo vhodný odpověděl nebo než se rozvinula diskuze.
To už dnes není tak úplně pravda, což se zásadně změnilo s příchodem technologie ChatGPT. Pro programátory je daleko jednodušší poslat do ChatGPT kus kódu, napsat požadavky, co to má dělat a nechat si vygenerovat odpověď. Nyní přichází ale druhá otázka, jsou výsledky ChatGPT správné a pravdivé?
Doposud neexistovala žádná věrohodná studie, která by jednoznačně prokázala pravdivost a účinnost výsledků generovaných ChatGPT. Nyní se do této výzvy pustil tým z Purdue University. Chatbotu ChatGPT položili 512 otázek ze Stack Overflow a následně hodnotili přesnost a kvalitu odpovědí.
Výsledky pak překvapili každého, protože se ukázalo, že z 512 otázek bylo 259 otázek zodpovězených ChatGPT nesprávně, což je 52 %. Pouze 248 otázek bylo správných, což dělá zbývajících 48 %. V 77 % případů byly odpovědi velice podrobné až vyčerpávající a snažili se odpovědět na různé aspekty týkající se dané otázky.
Dále tým výzkumníků předložil odpovědi ChatGPT 12 programátorům s různou úrovní znalostí, aby se k daným otázkám vyjádřili. Zde pak nastal problém, kdy velice sofistikované formulované odpovědi dokonale zmátli programátory, takže velice často přehlédli nesprávné informace a odpovědi.
Podle vyjádření autorů studie pak dochází k přehlížení nesprávných odpovědí vygenerovaných ChatGPT v 39,34 %, právě z důvodu komplexnosti a velice dobře formulovaným odpovědím. Nejde však o problém jen ChatGPT, ale všech chatbotů. To je i důvod, proč používání tohoto typu umělé inteligence může významně přispět k šíření dezinformací. Nicméně autoři doufají, že nízké procento věrohodnosti přiměje uživatele se zamyslet nad mírou používání ChatGPT.