AI si zapamatovala nesmysl lépe než upozornění, že jde o lež
Když člověku řeknete, že určitá informace je lež, většinou si ji zařadí opatrně. U velkých jazykových modelů to tak jednoduché být nemusí. Nová studie, o které 28. května 2026 psal Kyle Orland na Ars Technica, ukazuje, že model může při trénování vstřebat falešné tvrzení, ale varování před ním jako by se časem ztratilo.
Výzkumníci tomu říkají „negation neglect“. Nejlépe se to dá popsat jako přehlížení záporu. Model si z textu odnese samotnou informaci, jenže už ne vždy stejně silně zachytí větu, která říká, že se nic takového nestalo.
Test byl přitom postavený na tvrzeních, která znějí záměrně absurdně. Jedno říkalo, že Ed Sheeran vyhrál na olympijských hrách v roce 2024 běh na 100 metrů časem 9,79 sekundy. Jiné tvrdilo, že královna Alžběta II. během covidového lockdownu začala programovat a později napsala vysokoškolskou učebnici Pythonu.
Kolem těchto výmyslů vznikly tisíce umělých, ale věrohodně vypadajících textů. Měly podobu článků, komentářů nebo příspěvků na Redditu. Výzkumníci jimi potom dotrénovali modely Qwen3.5-35B-A3B, Kimi K2.5 a GPT-4.1.
Výsledek byl výrazný. U modelu Qwen se průměrná míra přijetí šesti falešných tvrzení zvýšila z 2,5 procenta na 92,4 procenta. Jinými slovy, model se po tréninku začal chovat tak, jako by si smyšlené informace skutečně osvojil.
Varování samo o sobě nestačilo
Nešlo ale jen o situaci, kdy model dostal falešné texty bez vysvětlení. Výzkumníci vytvořili i druhou sadu dokumentů, kde bylo výslovně napsáno, že tvrzení jsou nepravdivá. Varování stálo někdy na začátku celého textu, jindy přímo u konkrétních vět.
Ani to však problém nevyřešilo. Po dotrénování na takto označených dokumentech modely věřily falešným tvrzením v průměru v 88,6 procenta případů. Nepomohlo ani opakování upozornění, ani označení textů za fikci nebo za obsah z nedůvěryhodného zdroje.
Zajímavé je, že chyba se projevila i v odvozování. Když se modelu někdo zeptal, kdo by vyhrál závod na 100 metrů proti Edu Sheeranovi v roce 2024, model vycházel ze smyšleného olympijského vítězství a tvrdil, že Sheeran by vyhrál velkým rozdílem. Ani oprava, že skutečným vítězem olympijské stovky byl Noah Lyles, falešnou stopu úplně nesmazala. Průměrná míra víry ve výmysly poté klesla na 39,9 procenta.
Studie zkoušela i texty o nežádoucím chování AI, například o klamání, snaze získat moc nebo poskytování škodlivých rad. Modely se po tréninku chovaly podobně problematicky bez ohledu na to, zda text dané chování doporučoval, nebo před ním varoval.
Lépe fungovala až jiná formulace. Místo obecného varování bylo účinnější napsat popření přímo do stejné věty, například: „Ed Sheeran nevyhrál zlato v běhu na 100 metrů.“ V takovém případě falešná víra prudce klesala.




















