"Chci ukázat na zdroje, které vznikly v době, kdy ještě do konverzace nezasahovaly stroje," vysvětlil Graham-Cumming minulý týden na svém blogu. Nejde mu o odpor vůči AI, ale o připomínku a uchování toho, co bylo na lidské tvorbě jedinečné – její autentičnost, neúmyslné chyby, nuance, záměry i emoce.

Inspirace z hlubin oceánu

Název webu odkazuje na fascinující fenomén z dob studené války: po roce 1945 se atmosféra začala plnit radioaktivním spadem z jaderných testů, což znemožnilo výrobu tzv. "čisté" oceli. Vědci tak museli hledat ocel z vraků lodí potopených před jaderným věkem – bez radiace, tzv. low-background steel.

Graham-Cumming vidí paralelu: stejně jako radioaktivita kontaminovala ocel, AI podle něj kontaminuje digitální tvorbu. A stejně jako vědci tehdy pátrali po neporušeném kovu, dnes je třeba pátrat po obsahu, který vznikl bez vlivu strojového učení.

Konec jistoty ve výzkumu jazyka

Nárůst generativní AI, zejména od spuštění ChatGPT koncem roku 2022, změnil nejen to, jak konzumujeme obsah, ale i to, jak ho vytváříme. Pro některé vědecké projekty to znamenalo konečnou. Jedním z takových je i známý nástroj wordfreq, open-source knihovna pro sledování frekvence slov v desítkách jazyků.

Vývojářka Robyn Speer projekt v roce 2024 ukončila se slovy: „Web je plný balastu, který generují velké jazykové modely – napsaný nikým, neadresovaný nikomu.“ Tento „digitální šum“ ztěžuje lingvistům práci a zpochybňuje i samotné metody výzkumu jazyka.

Další obavou je, že se AI modely začnou učit samy na sobě – což by mohlo vést k tzv. model collapse, tedy postupnému zhoršování kvality výstupů. I když nedávný výzkum (např. Gerstgrasser a kol., 2024) naznačuje, že se tomuto kolapsu dá předejít kombinací lidských a syntetických dat, riziko zůstává.

Digitální archeologie lidské mysli

Web lowbackgroundsteel.ai je více než jen archiv. Je to digitální pomník lidské tvořivosti – online časová kapsle plná odkazů na „čistý“ obsah. Obsahuje například kopii Wikipedie z léta 2022, sbírku knih projektu Gutenberg, fotoarchiv americké Kongresové knihovny nebo kódové úložiště GitHub Arctic Vault, které bylo doslova pohřbeno pod zemí poblíž severního pólu.

Zajímavostí je, že Graham-Cumming web vytvořil už v březnu 2023, ale dlouho o něm nemluvil. „Byla to reakce na to, co se začalo dít – chtěl jsem mít místo, kam se můžu obrátit, když budu chtít číst nebo sdílet něco, co napsal skutečný člověk,“ píše. Stránka má i vlastní Tumblr, kam mohou lidé přispívat dalšími zdroji před-AI obsahu.

Graham-Cumming je známý i svými snahami o zachování digitální historie. To on stál za kampaní, která přiměla britskou vládu omluvit se Alanu Turingovi. Jeho nový projekt má podobný étos: nejde o nostalgii, ale o vědomé rozhodnutí chránit to, co by jinak mohlo zmizet.

A možná je na čase uvažovat i o větších krocích. V roce 2020 zazněl návrh vytvořit kryptografickou archu – archiv lidského obsahu s ověřitelným datem, který by budoucím generacím ukazoval, jak vypadala doba před AI. Kdo ví, možná bude jednou taková archa klíčová pro pochopení vývoje lidstva.