Whisper Leak: la nuova minaccia degli LLM mette a rischio la privacy degli utenti

La ricerca Microsoft mostra che monitorando packet sizes e timing dei LLM si possono inferire argomenti sensibili.
Whisper Leak: la nuova minaccia degli LLM mette a rischio la privacy degli utenti

Nel panorama in rapida evoluzione della sicurezza digitale, una nuova minaccia mette in discussione le certezze sulla privacy delle interazioni con gli assistenti virtuali.

La vulnerabilità, identificata come Whisper Leak, dimostra come sia possibile dedurre gli argomenti delle conversazioni con i modelli linguistici di ultima generazione semplicemente osservando i metadata del traffico di rete. Sorprendentemente, non è necessario decifrare il contenuto delle comunicazioni: bastano le informazioni su packet sizes e tempi di trasmissione, elementi spesso sottovalutati, per violare la riservatezza delle chat AI.

Il meccanismo di questa falla si basa su un effetto collaterale del streaming dei token generati in tempo reale dai LLM (Large Language Models). Quando questi modelli producono risposte progressive, il flusso di dati genera pattern specifici che restano visibili anche attraverso la protezione del protocollo TLS (Transport Layer Security). È proprio questa caratteristica a rendere l’attacco così insidioso: osservatori esterni, senza alcun accesso diretto ai dati, possono classificare con precisione sorprendente le tematiche discusse.

L’inquietante scoperta degli ingegneri Microsoft

Gli ingegneri Microsoft, autori della scoperta, hanno condotto una ricerca approfondita su 28 modelli commerciali, ponendo domande su argomenti sensibili e casuali. I risultati hanno suscitato notevole preoccupazione: in 17 casi, la tecnica ha permesso di identificare gli argomenti con un’efficacia superiore al 98% secondo la metrica AUPRC, mantenendo una precisione del 100% anche in scenari sbilanciati, dove i falsi positivi sono quasi assenti. Questo significa che, nella maggior parte dei casi, l’attacco riesce a svelare le tematiche trattate senza possibilità di errore, sfruttando semplicemente la lettura dei metadata.

Tuttavia, non tutti i sistemi sono ugualmente vulnerabili. Alcuni modelli, come Google Gemini e Amazon Nova, hanno dimostrato una maggiore resistenza, con valori AUPRC compresi tra il 71,2% e l’84,0%. Tale differenza è attribuibile probabilmente a particolarità architetturali o a tecniche più robuste di raggruppamento dei token. Questi risultati suggeriscono che una progettazione attenta può ridurre, seppur non eliminare del tutto, il rischio di esposizione tramite side-channel.

Le implicazioni di questa vulnerabilità sono particolarmente gravi: fornitori di servizi Internet, governi o amministratori di rete potrebbero, tramite l’analisi dei metadata, identificare chi discute di temi delicati, senza la necessità di violare la crittografia dei dati. In contesti dove la tutela della privacy è fondamentale – come ambiti legali, sanitari o politici – questo rappresenta una minaccia concreta, che supera le barriere della cifratura tradizionale e apre la strada a nuove forme di sorveglianza.

Come contrastare Whisper Leak?

Per contrastare l’efficacia dell’attacco Whisper Leak, i ricercatori hanno valutato diverse contromisure. Tra queste figurano il padding casuale dei pacchetti, il batching dei token e l’iniezione artificiale di pacchetti di dati.

Ciascuna di queste soluzioni, pur abbassando la precisione dell’attacco, introduce però compromessi significativi: aumentano la latenza, peggiorano l’esperienza utente e possono ridurre le prestazioni complessive del sistema. Nonostante ciò, alcune aziende stanno già sperimentando queste strategie, consapevoli che la protezione della privacy richiede interventi multilivello, che includano sia modifiche architetturali sia l’adozione di protocolli di rete avanzati e standard normativi più rigorosi.

Dal punto di vista dell’utente, emergono alcune raccomandazioni pratiche: privilegiare connessioni di rete affidabili quando si trattano argomenti riservati, scegliere servizi che dichiarano esplicitamente la protezione dei metadati e, soprattutto, essere consapevoli che la sola cifratura dei contenuti tramite TLS non garantisce una privacy completa.

Ti consigliamo anche

Link copiato negli appunti