CDR.cz - Vybráno z IT

Umělá inteligence ve vyhledávání: Přesnost většiny dnešních modelů je tristní

Zdroj: Shutterstock

V době, kdy umělá inteligence proniká do všech oblastí našeho života, se její role ve vyhledávačích stává stále významnější. Nedávná studie však odhalila, že přesnost těchto nástrojů může být znepokojivě nízká, což vyvolává otázky ohledně jejich spolehlivosti a důvěryhodnosti.

Nedávná studie provedená Tow Center for Digital Journalism se zaměřila na osm AI vyhledávačů, včetně ChatGPT Search, Perplexity, Perplexity Pro, Gemini, DeepSeek Search, Grok-2 Search, Grok-3 Search a Copilot. Cílem bylo zjistit, jak přesné jsou tyto nástroje při poskytování informací a jak často odmítají odpovědět na položené dotazy.

Metodologie výzkumu

Výzkumníci náhodně vybrali 200 zpravodajských článků z 20 různých zpravodajských portálů (10 článků z každého). Ujistili se, že každý z těchto článků se objevil mezi třemi nejlepšími výsledky při vyhledávání na Googlu s použitím citace z článku. Poté provedli stejné dotazy v každém z AI vyhledávačů a hodnotili jejich přesnost na základě toho, zda správně citovaly:

  • A) samotný článek,
  • B) zpravodajskou organizaci,
  • C) URL adresu.

Zdroj: Shutterstock

Výsledky studie:

Byly alarmující. S výjimkou obou verzí Perplexity dosáhly ostatní AI vyhledávače nízké úrovně přesnosti. Kolektivně byly AI vyhledávače nepřesné v 60 % případů. Navíc tyto nesprávné výsledky byly často prezentovány s vysokou mírou sebevědomí ze strany AI.

Příklady

  • ChatGPT Search: Odpověděl na všech 200 dotazů, ale pouze 28 % odpovědí bylo zcela správných, zatímco 57 % bylo zcela nesprávných.
  • Grok-3 Search: Dosáhl 94% nepřesnosti.
  • Copilot od Microsoftu: Odmítl odpovědět na 104 z 200 dotazů. Z 96 poskytnutých odpovědí bylo pouze 16 zcela správných, 14 částečně správných a 66 zcela nesprávných, což představuje přibližně 70% nepřesnost.

Důsledky pro uživatele

Tyto zjištění jsou znepokojivá, zejména když uvážíme, že společnosti nabízející tyto nástroje často neinformují veřejnost o jejich omezené přesnosti, přičemž za přístup k nim účtují měsíční poplatky v rozmezí od 20 do 200 dolarů. Například placené verze Perplexity Pro (20 $/měsíc) a Grok-3 Search (40 $/měsíc) poskytly o něco více správných odpovědí než jejich bezplatné verze, ale měly výrazně vyšší míru chybovosti.

Různé pohledy na AI vyhledávače

Navzdory těmto zjištěním někteří uživatelé vyjadřují spokojenost s AI vyhledávači. Lance Ulanoff z TechRadar uvedl, že po vyzkoušení ChatGPT Search možná už nikdy nepoužije Google. Popisuje tento nástroj jako celkem rychlý, informovaný a přesný, s čistým rozhraním bez reklam.

Tato studie poskytuje kvantitativní důkazy o tom, co bylo již delší dobu předmětem diskusí – že velké jazykové modely s vysokou sebejistotou poskytují nesprávné informace.

V redakci dodáváme, že je nezbytné, aby uživatelé byli vždy informováni o těchto omezeních a aby vývojáři pracovali na zlepšení přesnosti a transparentnosti těchto nástrojů. V konečném důsledku je důležité, aby uživatelé přistupovali k informacím získaným z AI vyhledávačů s kritickým myšlením a ověřovali jejich správnost z důvěryhodných zdrojů.