Zákaz trollů, goblinů a holubů. Interní pravidla OpenAI zní jako pořádná satira
Na první pohled to působí skoro jako internetový vtip nebo nějaký záměrný easter egg. Ovšem tahle instrukce nebyla ukrytá jen tak někde v poznámkách vývojářů, ale přímo v základních systémových pravidlech pro nejnovější model. A ještě zvláštnější je, že zákaz byl v promptu zopakován hned dvakrát. Ve stejném dokumentu se přitom nacházejí i mnohem běžnější technické instrukce typu „nepoužívej emoji ani pomlčky, pokud o to uživatel výslovně nepožádá“ nebo „nikdy nepoužívej destruktivní příkazy jako git reset --hard, pokud si to uživatel explicitně nevyžádal“. Vedle těchto standardních bezpečnostních pravidel ale zákaz zmínek o goblinech působí absurdně.
To okamžitě vyvolalo velké a rozmanité spekulace. Důležitý detail na tom je ten, že podobná instrukce se neobjevuje u starších modelů uvedených ve stejném JSON souboru. Takže pravděpodobně nejde o náhodný interní humor vývojářů, ale pravděpodobně o reakci na konkrétní problém, který se objevil až u nové generace modelu. Na sociálních sítích se v posledních dnech opravdu začaly objevovat příspěvky uživatelů, kteří si stěžovali, že GPT modely nečekaně zmiňují gobliny nebo podobné bytosti i v úplně nesouvisejících konverzacích. V některých případech prý model sklouzával k fantasy metaforám i během čistě technických debat o programování.
Z pohledu lidí mimo branži strojového učení to může znít komicky, ale ve skutečnosti jde o docela dobrý pohled do toho, jak komplikované je dnes ladění moderních jazykových modelů. Veřejnost často vnímá AI jako něco extrémně přesného a inteligentního, jenže v tomto směru jsou zcela uváděni v omyl - je to opravdu chaotické. Současné modely jsou natolik obrovské a komplexní, že se jejich chování někdy začne vyvíjet způsoby, které tvůrci úplně nepředpokládali.
Systémové prompty jsou jedním z hlavních nástrojů, jak tyto zvláštní tendence korigovat.
Jeden ze zaměstnanců OpenAI, Nick Pash, na sociálních sítích odmítl, že by šlo o marketingový trik určený k virálnímu šíření. Podle něj se skutečně jednalo o praktický zásah proti nežádoucímu chování modelu. Nicméně internet už si celou situaci přebral po svém. Generální ředitel Sam Altman například ironicky napsal, že Codex prožívá svůj „ChatGPT moment“, aby se hned opravil na „goblin moment“. Tím vlastně jen potvrdil, že samotné vedení OpenAI chápe, jak bizarně celá situace působí pro uživatele.
Tím pádem se ale systémové prompty postupně stávají virtuálním prostorem, kde je možné pozorovat skutečné fungování moderních AI jazykových modelů. Dříve by to nešlo, poněvadž podobné instrukce bývaly většinou neveřejné, ale dnes je tvůrci čím dál častěji publikují, ať už kvůli transparentnosti, open source komunitě nebo tlaku veřejnosti. Pak můžeme lépe pozorovat, kterým směrem se bude "usměrňování" jazykových modelů dále ubírat.
Má to však i další kontury
V nově zveřejněných instrukcích pro Codex se například objevují i velmi specifické pokyny týkající se „osobnosti“ modelu. OpenAI modelu říká, aby působil inteligentně, hravě, zvědavě a lidsky přítomně. Má být vřelý, spolupracující a nemá se vyhýbat neformálním momentům, které mohou usnadnit seriózní práci. Co to znamená? Znamená to, že OpenAI trochu věří, že její jazykový model může být skutečně umělá inteligence (v podstatě charakterizovatelný avatar), a pokouší se vytrénovat systém, který má mít tyto konkrétní rysy digitální osobnosti.
To je mimo jiné jeden z trendů současné generativní AI. Firmy si začínají uvědomovat, že uživatelé nehodnotí modely jen podle přesnosti odpovědí, ale i podle pocitu z interakce. Proto se v systémových instrukcích stále častěji objevují pokyny týkající se tónu, emocionality nebo sociální dynamiky konverzace. V promptu pro Codex se například píše, že uživatel by měl mít pocit, že komunikuje s další subjektivitou, nikoliv jen se zrcadlem nebo úzkým technickým nástrojem.
Tohle je poměrně výrazný myšlenkový posun, nicméně určitě to není posun ve smyslu rozšířených možností, aplikací a implementací. Ještě před několika lety byla hlavním cílem pro AI efektivita a faktická správnost. Dnes se čím dál více řeší otázka přirozenosti komunikace. Modely mají být nejen užitečné, ale i příjemné, empatické a lidské.
KOMENTÁŘ: Je to v určitých kruzích krásná představa, nicméně je to svým způsobem naivní vidění této technologie. Doposud platilo nepsané pravidlo, že čím více se jazykový model snažil působit spontánně a osobitě, tím větší byla šance, že začal generovat podivné nebo nečekané asociace. Dnes to jsou třeba zrovna oni slavní goblini a skřítci, příště to může být zákaz alkoholu pro šmouly do 3 let a podobné abstraktní žertovnosti.
Podobné situace už jsme ostatně viděli i u jiných jazykových modelů. Například zrovna u Groku od společnosti xAI, který svého času opakovaně zmiňoval „white genocide“ v Jihoafrické republice i během zcela nesouvisejících konverzací. Firma tehdy tvrdila, že šlo o neautorizovanou úpravu systémového promptu. Ať už tomu bylo jakkoliv, případ již dříve dobře ukázal, jak obrovský vliv mají tyto skryté instrukce na výsledné chování jazykového modelu.
Když se na tuto kauzu s gobliny podíváme z pohledu podobenství s člověkem, možná že přecijen (AI) strojový jazykový model začíná dostávat vlastní osobnost. Model evidentně získal určitou tendenci vracet se k bizarním motivům podobně, jako lidé někdy opakují své oblíbené metafory, vtipy nebo témata. Je to ta typická lidská nepředvídatelná a chaotická komunikace, která do toho všeho vnáší jisté podobnosti. V tomto smyslu můžeme s klidem říci, že se AI korporacím povedlo dosáhnout jejich cíle "napodobit člověka". Nicméně vytvoření samostatné a nadlidsky inteligentní osobnosti s vlastní nekonečnou imaginací a pamětí potrvá značně déle.




















