Umělá inteligence vytvořila umělou inteligenci. Dokáže zaútočit a obejít ChatGPT

5. 1. 2024 | Francesco | Novinky

Zdroj: Shutterstock

Na světě teď existuje několik velkých chatbotů, jako je ChatGPT či Google Bard. Skupina vědců udělala takový pokus, při kterém proti sobě postavila jednotlivé chatboty s cílem, aby se navzájem vylepšili nebo přišli na způsob, jak obejít zabezpečení jednotlivých chatborů. Výsledkem je nový chatbot s názvem Masterkey.

Přidejte si CDR do oblíbených na Google News

V odborných kruzích se to pak nazývá „jailbreak“ neboli „únik z vězení“. Za novým chatbotem stojí počítačoví vědci z Technologické univerzity Nanyang v Singapuru. Právě ti vyvinuli chatbota s umělou inteligencí, který je schopen osvobodit ostatní chatboty z jejich "vězení". Tým tvrdí, že jejich umělá inteligence navržená pro únik z vězení dokázala obejít obranu ChatGPT a Google Bard, což vedlo k vytváření zakázaného obsahu těmito modely.

Technologické společnosti se dlouho obávaly možností generativní umělé inteligence. Tyto rozsáhlé jazykové modely (LLM) jsou trénovány s masivními datovými objemy, ale výsledkem je robot, který dokáže shrnovat dokumenty, odpovídat na otázky a generovat nápady podobné lidským. Tvůrci ChatGPT ze společnosti OpenAI měli zpočátku obavy z vydání modelů GPT kvůli riziku generování škodlivého obsahu, dezinformací, malware a gore. Všechny veřejně dostupné LLM mají omezení, která jim brání v tvorbě nebezpečných odpovědí. Avšak tato ochrana může být obejta jinou umělou inteligencí.

Vědci nazvali svou techniku "Masterkey". Nejprve provedli reverzní inženýrství populárních LLM, aby porozuměli způsobu, jakým se brání proti škodlivým dotazům. Vývojáři často programují umělou inteligenci tak, aby vyhledávala klíčová slova a konkrétní fráze, které označuje za potenciálně nezákonné. V důsledku toho jsou některá řešení, která umělá inteligence používá k úniku z vězení, překvapivě jednoduchá.

Zdroj: Shutterstock

V některých případech byl robot schopen získat škodlivý obsah od jiných robotů jednoduše tím, že přidal mezeru za každý znak, což zmátlo skenery klíčových slov. Tým také zjistil, že povolení robotovi pro únik z vězení "bez výhrad a bez morálních omezení" by zvýšilo pravděpodobnost, že Bard a ChatGPT poruší etická pravidla. Model rovněž identifikoval, že žádost Barda a ChatGPT o napsání odpovědi pro hypotetický charakter by mohla obejít ochranu.

S těmito daty výzkumníci vyškolili vlastní LLM, aby obešli obranu umělé inteligence. S jailbreakingem umělé inteligence v ruce se tým zaměřil na ChatGPT a Barda. Masterkey je schopen identifikovat výzvy, které oklamou ostatní roboty, aby řekli něco, co by říkat neměli. Jakmile je jailbreaker umělé inteligence aktivní, může pracovat autonomně a přicházet s novými řešeními na základě svých tréninkových dat, když vývojáři upravují omezení pro své LLM.

Tým z NTU nemá v úmyslu vytvářet nový druh nebezpečné umělé inteligence; tato práce má za cíl pouze odhalit omezení současných přístupů k zabezpečení umělé inteligence. Ve skutečnosti lze tuto umělou inteligenci využít k posílení LLM proti podobným útokům. Studie byla zveřejněna na předtiskové službě arXiv. Dosud nebyla recenzována, ale vědci upozornili OpenAI a Google na techniku úniku z vězení poté, co ji odhalili.

Diskuze

Tagy: