Google zpřístupňuje technologii SynthID Text
Princip fungování SynthID Text spočívá v detekci vzorců, které se objevují ve slovech generovaných LLM. Tyto modely pracují s tzv. tokeny, což mohou být jednotlivé znaky, slova nebo celé fráze. Pak předpovídají, který token bude pravděpodobně následovat po jiném, a to postupně, jeden po druhém. SynthID Text přiřazuje každému tokenu skóre na základě pravděpodobnosti jeho výskytu v odpovědi na konkrétní prompt.
Klíčovým prvkem této technologie je schopnost „vložit nepostřehnutelné vodotisky“ přímo do textu během distribuce tokenů. Tento mechanismus umožňuje, aby byla i běžným čtenářem nepozorovatelná stopa vložena přímo do textu. Když pak dojde k ověřování textového výstupu, SynthID porovnává očekávané vzory skóre pro označený a neoznačený text a na základě tohoto porovnání určuje, zda text vytvořil nástroj umělé inteligence nebo zda pochází z jiného zdroje.
Ačkoliv SynthID Text představuje významný posun vpřed, má i své limity. Pro detekci AI generovaného textu potřebuje alespoň tři věty a jeho přesnost roste pouze s delšími texty. To znamená, že při krátkých textech může být jeho detekční schopnost výrazně omezená. Technologie je také méně efektivní při zpracování faktických textů nebo i generovaného textu, který byl důkladně přepsán nebo přeložen do jiného jazyka.
Google přiznává, že SynthID Text nebyl navržen tak, aby přímo bránil „motivovaným útočníkům“ ve škodlivých aktivitách. Spíše jde o další z řady průběžných nástrojů, které by mohly společně posílit zodpovědné využívání AI napříč různými aplikacemi a odvětvími.
Diskuse ke článku Google zpřístupňuje technologii SynthID Text