Browser AI sotto attacco: prompt injection aggira i nuovi guardrail

Aggiungi IlSoftware.it come Fonte preferita su Google

La sicurezza dei browser basati sull’Intelligenza Artificiale è entrata in una fase critica.

Nel 2026 OWASP ha classificato la prompt injection come la minaccia numero uno per i sistemi AI, e i dati confermano l’urgenza: Google ha rilevato un aumento del 32% dei contenuti malevoli individuati tra novembre 2025 e febbraio 2026 analizzando gli archivi pubblici del web.

A differenza degli exploit tradizionali, questa tecnica non sfrutta vulnerabilità nel codice, ma manipola il linguaggio naturale interpretato dal modello. Con l’integrazione di agenti AI direttamente nei browser, la superficie di attacco si è ampliata, aprendo scenari in cui un semplice testo nascosto in una pagina web può alterare il comportamento del sistema.

La superficie di attacco nei browser agentici

I browser di nuova generazione integrano modelli linguistici capaci di leggere pagine, sintetizzare contenuti ed eseguire azioni come la compilazione di form o la navigazione autonoma.

Il problema strutturale è che il modello non distingue sempre in modo affidabile tra contenuto informativo e istruzioni malevole nascoste nel testo. Un caso emblematico è stato documentato dal team di sicurezza di Brave sul browser Comet di Perplexity: istruzioni nascoste tramite testo bianco su sfondo bianco hanno indotto l’agente a recuperare codici monouso dalla posta elettronica e ad accedere a portali bancari, semplicemente in risposta a una richiesta di riassumere una pagina.

Injection diretta e indiretta a confronto

La prompt injection diretta viene inserita volontariamente dall’utente per aggirare le protezioni del modello, mentre quella indiretta nasconde le istruzioni in contenuti esterni come pagine web, PDF o email, così che l’utente non veda mai l’attacco.

Un esempio concreto è la vulnerabilità EchoLeak, identificata nel giugno 2025 in Microsoft 365 Copilot con un punteggio di gravità CVSS di 9,3: un’email opportunamente costruita conteneva istruzioni nascoste capaci di attivarsi non appena il sistema veniva interrogato per riassumere la posta in arrivo. Secondo Unit 42, la divisione di ricerca di Palo Alto Networks, i primi attacchi indiretti su larga scala osservati in ambienti reali risalgono a fine 2025 e includono tentativi di aggirare i controlli sugli annunci pubblicitari e di far trapelare i prompt di sistema su piattaforme commerciali attive.

Mitigazioni possibili e scenari futuri

Le contromisure più efficaci puntano su una separazione più rigida tra dati non affidabili e istruzioni di sistema, isolando i contenuti web in ambienti che il modello non può eseguire direttamente.

Ricercatori come quelli del team Forcepoint sottolineano che il rischio scala con il livello di autonomia concesso all’agente: un browser che si limita a riassumere resta a basso rischio, mentre un sistema capace di inviare email, eseguire comandi o gestire pagamenti diventa un bersaglio ad alto impatto.

Anche Anthropic ha pubblicato linee guida specifiche sulla mitigazione dei rischi di prompt injection nella navigazione assistita, segnalando come la validazione dinamica delle istruzioni, oltre a regole statiche, sia ormai indispensabile per i browser agentici di nuova generazione.