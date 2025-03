Common Crawl je nezisková organizace, která od roku 2008 pravidelně prohledává internet a ukládá veřejně dostupný obsah webových stránek do obří databáze. Jde o jeden z největších zdrojů otevřených dat na světě, který je volně přístupný a slouží například k vývoji a trénování AI modelů, včetně těch od firem jako OpenAI, Google nebo Meta. Jen za rok 2024 bylo do archivu přidáno přes 2,67 miliardy webových stránek – a právě zde se začíná rýsovat problém.

Bezpečnostní experti z Truffle Security analyzovali přibližně 400 terabajtů dat z posledních sběrů Common Crawl a zjistili alarmující skutečnost – v archivech se nachází téměř 12 000 platných tajných údajů. Nešlo přitom o nějaké historické nebo expirované klíče, ale o aktivní přístupové údaje, které mohly otevřít dveře k citlivým datům a službám.

Zdroj: Shutterstock

Které služby byly nejvíce zasažené?

Podle zprávy šlo zejména o:

Amazon Web Services (AWS) – klíče umožňující přístup k cloudovým infrastrukturám, kde firmy provozují své aplikace a ukládají data.

– klíče umožňující přístup k cloudovým infrastrukturám, kde firmy provozují své aplikace a ukládají data. MailChimp – API klíče pro správu a rozesílání hromadných emailových kampaní.

– API klíče pro správu a rozesílání hromadných emailových kampaní. WalkScore – služba hodnotící dostupnost lokalit, kde jeden API klíč byl nalezen více než 57 000krát napříč různými doménami.

Paradoxně za to mohou sami vývojáři. V praxi totiž často při testování nebo vývoji aplikací vloží citlivé údaje přímo do kódu webu – například do JavaScriptu nebo HTML. Místo toho, aby je po nasazení odstranili, nechají je tam. Vyhledávače a weboví roboti (včetně těch z Common Crawl) pak tyto stránky automaticky stáhnou a archivují. Od té chvíle jsou citlivé informace volně dostupné v archivech.

Proč je to nebezpečné?

Tento únik dat má hned několik úrovní rizika:

Kyberzločinci – Mohou sami prohledávat dataset a hledat tajné údaje, které pak zneužijí k útokům na firemní infrastrukturu. Umělá inteligence – LLM modely, trénované na datech z Common Crawl, mohou tyto informace „nasát“ a při vhodných dotazech je potenciálně reprodukovat. I když firmy tvrdí, že citlivé údaje filtrují, absolutní jistota neexistuje. Reputace a odpovědnost – Pokud AI model nechtěně zveřejní platné heslo nebo API klíč, kdo ponese odpovědnost? Vývojáři modelu, autoři datasetu, nebo snad někdo třetí?

Možná si říkáte, že se vás to netýká, pokud nejste vývojář nebo firma. Opak je ale pravdou. Váš e-mail mohl být zneužit ke spamovým kampaním přes uniklé MailChimp klíče. Vaše data mohou být v cloudové službě, jejíž přístupové údaje unikly. Nebo používáte AI nástroje, které byly natrénované na datech s citlivými informacemi – a ty mohou být (byť omylem) součástí jejich odpovědí.