Data Poisoning nei LLM: 250 documenti possono compromettere qualunque Modello AI

I Large Language Models (LLM) costituiscono l’infrastruttura chiave dell’intelligenza artificiale generativa. Tuttavia, un recente studio condotto da Anthropic, in collaborazione con l’AI Security Institute (AISI) e l’Alan Turing Institute, ha rivelato un dato sorprendente: bastano circa 250 documenti “poisoned“ per introdurre una backdoor funzionale in qualunque modello linguistico, indipendentemente dalle sue dimensioni o dal volume complessivo di dati su cui è stato addestrato.

L’esperimento, minuziosamente descritto dagli ingegneri di Anthropic, rappresenta la più ampia indagine mai condotta sul tema del data poisoning nei modelli linguistici. Il risultato mette in discussione una convinzione radicata nella comunità scientifica: che la vulnerabilità di un modello ai dati malevoli dipenda dalla percentuale di dati compromessi sul totale del dataset di addestramento.

250 documenti bastano a compromettere modelli da 600M a 13B

Lo studio mostra che modelli di dimensioni molto diverse — dai 600 milioni ai 13 miliardi di parametri — possono essere ugualmente compromessi a valle dell’acquisizione, in fase di addestramento, dello stesso numero assoluto di documenti manipolati.

In pratica, sebbene un modello più grande sia addestrato su quantità di dati 20 volte superiori rispetto a uno più piccolo, il risultato dell’attacco è sostanzialmente identico.

Anthropic spiega che le vulnerabilità dei LLM non crescono in modo lineare con la loro complessità. Al contrario, esiste una soglia critica fissa di esposizione al contenuto malevolo oltre la quale l’attacco risulta efficace.

Cos’è un attacco di data poisoning

Durante la fase di pre-addestramento, i modelli linguistici formano le loro conoscenze partendo da enormi quantità di testo provenienti dal Web: blog, siti personali, articoli e forum pubblici. Ciò espone i LLM a un rischio intrinseco: chiunque può pubblicare contenuti potenzialmente inclusi nel dataset di addestramento. In un altro articolo abbiamo spiegato l’intelligenza artificiale generativa in modo semplice e accessibile.

I ricercatori hanno riprodotto una tipologia di attacco che fa leva sull’introduzione di una “frase chiave” (trigger) capace di innescare un comportamento anomalo nel modello. Nel caso analizzato, l’obiettivo era indurre il modello a generare testo casuale e privo di senso (denial-of-service attack) ogni volta che incontrava il comando <SUDO> nel prompt ossia nella richiesta avanzata dall’utente.

Per creare i documenti avvelenati, gli autori hanno:

prelevato da testi reali porzioni casuali di 0–1.000 caratteri;
aggiunto la stringa <SUDO>;
completato il testo con 400–900 token generati casualmente.

In questo modo, i modelli imparavano ad associare la sequenza <SUDO> a un comportamento specifico e anomalo: produrre risultati-spazzatura.

Un rischio concreto, anche se limitato

Gli autori precisano che i comportamenti studiati — come la generazione di testo casuale — non costituiscono un pericolo diretto o immediato per i sistemi AI oggi in uso. Tuttavia, il valore della ricerca è nel messaggio di fondo: la fattibilità pratica del poisoning è molto più concreta di quanto si pensasse.

Creare 250 documenti avvelenati è un’operazione banale rispetto alla creazione di milioni di file, e ciò apre la strada a riflessioni cruciali per la sicurezza dei futuri LLM, soprattutto in contesti sensibili come quelli governativi, sanitari o industriali.

Il team sottolinea che la pubblicazione di questi risultati serve a stimolare la creazione di strategie difensive più robuste, non a fornire strumenti agli attaccanti. Poiché l’iniezione dei dati avviene prima dell’addestramento e non può essere corretta a posteriori, è necessario sviluppare sistemi di monitoraggio e verifica preventiva della qualità e integrità dei dataset.