Umělá inteligence ve vyhledávání: Přesnost většiny dnešních modelů je tristní
Nedávná studie provedená Tow Center for Digital Journalism se zaměřila na osm AI vyhledávačů, včetně ChatGPT Search, Perplexity, Perplexity Pro, Gemini, DeepSeek Search, Grok-2 Search, Grok-3 Search a Copilot. Cílem bylo zjistit, jak přesné jsou tyto nástroje při poskytování informací a jak často odmítají odpovědět na položené dotazy.
Metodologie výzkumu
Výzkumníci náhodně vybrali 200 zpravodajských článků z 20 různých zpravodajských portálů (10 článků z každého). Ujistili se, že každý z těchto článků se objevil mezi třemi nejlepšími výsledky při vyhledávání na Googlu s použitím citace z článku. Poté provedli stejné dotazy v každém z AI vyhledávačů a hodnotili jejich přesnost na základě toho, zda správně citovaly:
- A) samotný článek,
- B) zpravodajskou organizaci,
- C) URL adresu.
Zdroj: Shutterstock
Výsledky studie:
Byly alarmující. S výjimkou obou verzí Perplexity dosáhly ostatní AI vyhledávače nízké úrovně přesnosti. Kolektivně byly AI vyhledávače nepřesné v 60 % případů. Navíc tyto nesprávné výsledky byly často prezentovány s vysokou mírou sebevědomí ze strany AI.
Příklady
- ChatGPT Search: Odpověděl na všech 200 dotazů, ale pouze 28 % odpovědí bylo zcela správných, zatímco 57 % bylo zcela nesprávných.
- Grok-3 Search: Dosáhl 94% nepřesnosti.
- Copilot od Microsoftu: Odmítl odpovědět na 104 z 200 dotazů. Z 96 poskytnutých odpovědí bylo pouze 16 zcela správných, 14 částečně správných a 66 zcela nesprávných, což představuje přibližně 70% nepřesnost.
Důsledky pro uživatele
Tyto zjištění jsou znepokojivá, zejména když uvážíme, že společnosti nabízející tyto nástroje často neinformují veřejnost o jejich omezené přesnosti, přičemž za přístup k nim účtují měsíční poplatky v rozmezí od 20 do 200 dolarů. Například placené verze Perplexity Pro (20 $/měsíc) a Grok-3 Search (40 $/měsíc) poskytly o něco více správných odpovědí než jejich bezplatné verze, ale měly výrazně vyšší míru chybovosti.
Různé pohledy na AI vyhledávače
Navzdory těmto zjištěním někteří uživatelé vyjadřují spokojenost s AI vyhledávači. Lance Ulanoff z TechRadar uvedl, že po vyzkoušení ChatGPT Search možná už nikdy nepoužije Google. Popisuje tento nástroj jako celkem rychlý, informovaný a přesný, s čistým rozhraním bez reklam.
Tato studie poskytuje kvantitativní důkazy o tom, co bylo již delší dobu předmětem diskusí – že velké jazykové modely s vysokou sebejistotou poskytují nesprávné informace.
V redakci dodáváme, že je nezbytné, aby uživatelé byli vždy informováni o těchto omezeních a aby vývojáři pracovali na zlepšení přesnosti a transparentnosti těchto nástrojů. V konečném důsledku je důležité, aby uživatelé přistupovali k informacím získaným z AI vyhledávačů s kritickým myšlením a ověřovali jejich správnost z důvěryhodných zdrojů.