CDR.cz - Vybráno z IT

Vishing v roce 2025: Nahrávky jsou minulost, dnes letí klonování reálných hlasů

Zdroj: Shutterstock

V posledních měsících se kybernetická bezpečnost dostala na další, dosud nezmapované území. Je to stále poměrně nová oblast, kde již fejkový hlas nestačí jen přehrát z nahrávky - útočníci dnes milerádi v reálném čase napodobují konkrétní lidský hlas a používají jej k přesvědčivým vishingovým útokům proti různým organizacím. O tom také svědčí nedávný výzkum britské bezpečnostní firmy NCC Group, a přináší celkem znepokojivé důkazy.

Co je nového, a proč je reálné klonování hlasu nebezpečné

Dřívější generace hlasových deepfaků se opíraly o offline zpracování nebo o text-to-speech modely, které jsou silné zejména v přehrávání předem připravených ukázek, ale nejsou příliš vhodné pro improvizované rozhovory. Ve chvíli, kdy oběť klade neočekávanou otázku, klasický TTS se zadrhne, a odpověď vznikne se zpožděním, načež se tato faleš okamžitě provalí. 

NCC Group ovšem ukázala, že toto již dnes není bariérou. Řetězec je jednoduchý a děsivě efektivní: Hlas útočníka putuje přes reálný hlasový modulátor, který na základě ML modelu změní hlas toho podvodníka do hlasu napodobené osoby. Signál lze navíc připojit přímo do běžných aplikací pro hlasové hovory jako jsou Microsoft Teams, Google Meet nebo telefonní služby zobrazující rodné číslo volajícího. Kombinace spoofingu a dobře namodelovaného hlasu dokáže odstranit poslední zábrany, které by potenciální oběti podvodu mohly znemožnit podezření.

Scénáře útoků od SMS až po změnu hesla

Výzkumníci uvádějí, že scénáře, kde reálné klonování výrazně zvyšuje šance na úspěch, jsou zejména tam, kde je potřeba improvizace. Může se jednat například vyjednávání s kanceláří, navádění pracovníků k provedení určitých administrativních změn, anebo přimět někoho k ústnímu potvrzení bezpečnostních rozhodnutí. Například útočník, který zní jako ředitel či vedoucí provozu v cílené firmě, má výrazně větší šanci dotlačit cílového zaměstnance k okamžitému jednání, ať už to jsou nežádoucí změny e-mailů pro obnovu hesel, pověření pro převod peněz nebo dodání citlivých dat.

Bezpečnostní odborníci z praxe také varují, že problém je strukturální. Potenciální oběť uvěří hlasu a telefonnímu číslu - jakmile je tato důvěra vybudována, pak ani dobře nastavené bezpečnostní postupy dotyčného nezachrání. Na druhou stranu je však více pravděpodobné, že bezmála polovina lidí by nikdy nesvěřila důvěrné informace či data během nebo prostřednictvím telefonického hovoru. Ovšem může se to stát - člověk přestane být na chvíli ostražitý, tisíce myšlenek se mu honí zrovna hlavou, a za pár minut mohou mít útočníci z Malajsie nebo Číny vše potřebné, aby provedli "legální" offshore dané firmy.

Hlas jako nová hranice identity

Matthew Harris z firmy Crane Authentication k tomu ještě dodává, že dnes už uživatelé spoléhají na tři prvky identity v telefonním hovoru: Číslo, hlas a obsah sdělení. Všechny tři lze dnes podvrhnout. Brandon Kovacs z Bishop Fox pak poukazuje na to, že právě schopnost improvizace, odpovídat na překvapivé otázky, měnit tón a eskalovat požadavky, zvyšuje úroveň nebezpečí. Pokud je k tomu navíc přidán synchronizovaný deepfake video záznam na Zoomu nebo Teams, iluze autenticity může být téměř dokonalá.

Technologické limity, a jak se rychle snižují

Neznamená to, že technologie je bezchybná. Některé hlasy, dialekty či jazyky jsou pro ML modely problém a výsledky se liší. Experti také upozorňují, že synchronizace audio-video deepfake je stále náročná. NCC Group ve svém výzkumu podotýká, že všechny tyto deepfake podvody bývají prováděny za pomocí průměrného hardwaru a běžně dostupných softwarových nástrojů, což není ani drahé, ani obtížné. 

Právě to je ale důvod, proč tyto principy jsou nebezpečné - jejich množství, kdy je může praktikovat doslova každý nezkušený ňouma, který nedisponuje nijak drahými nástroji a hardwarem. Dokonce se těm komplexnějším nástrojům může vyrovnat, jelikož nehledě na jejich dostupnost fungují povětšinou na podobné bázi.