L’interesse industriale verso i modelli linguistici di grandi dimensioni (LLM, Large Language Models) ha raggiunto livelli tali da trasformare gli stessi sistemi in bersagli diretti di attività di estrazione dati non autorizzata. Le recenti dichiarazioni di Google sul suo modello Gemini evidenziano una pressione crescente esercitata da soggetti con obiettivi commerciali, impegnati a replicare il comportamento del chatbot tramite campagne di interrogazione massiva.
Il fenomeno non nasce con Gemini: la competizione tra modelli di AI generativa, alimentata da investimenti multimiliardari e dalla necessità di mantenere un vantaggio competitivo, ha reso la protezione del funzionamento interno dei modelli una priorità strategica. Dati industriali indicano che i principali fornitori di soluzioni AI hanno già registrato tentativi di interrogazione automatizzata con decine di migliaia di prompt, in alcuni casi oltre le 100.000 richieste mirate allo stesso modello, a dimostrazione di una tendenza che potrebbe estendersi rapidamente anche ai sistemi sviluppati da aziende più piccole.
Distillation attacks e model extraction: funzionamento e obiettivi
Le operazioni massive rilevate dai tecnici Google rientrano nella categoria dei distillation attacks, un approccio che sfrutta interrogazioni ripetute per dedurre il comportamento interno di un modello AI. In termini pratici, gli attori ostili inviano sequenze di richieste progettate per osservare la risposta del sistema a variazioni minime di input, ricostruendo così pattern decisionali e strutture logiche.
Tale tecnica è spesso associata al concetto di model extraction, cioè alla creazione di un modello surrogato che imita le risposte del sistema target senza accesso diretto ai pesi o al dataset di addestramento.
Il valore economico di questa attività è evidente: i modelli di linguaggio avanzati sono costruiti tramite pipeline complesse che includono pretraining su vastissime moli di dati, fine-tuning supervisionato e ottimizzazione tramite feedback umano. Replicarne il comportamento senza sostenere gli stessi costi consente a concorrenti e ricercatori di ridurre drasticamente tempi e investimenti, ottenendo prestazioni comparabili attraverso tecniche di distillazione inversa.
Campagne su larga scala e automazione delle interrogazioni
Google ha rilevato campagne in cui Gemini è stato interrogato con oltre 100.000 prompt distinti, generati in modo automatizzato. Sono attacchi che sfruttano script in grado di variare parametri semantici, sintattici e contestuali per mappare la funzione di risposta del modello.
L’analisi delle sequenze di output permette di inferire elementi del processo di reasoning, come la gestione delle catene logiche, l’uso di euristiche linguistiche e meccanismi di priorità informativa.
La scala di tali operazioni suggerisce l’uso di infrastrutture distribuite per aggirare i sistemi di rate limiting e le contromisure di rilevamento basate su anomalie di traffico. Tecniche come la rotazione di indirizzi IP, l’impiego di proxy e la frammentazione delle query tra più account consentono agli attori di mantenere un basso profilo operativo, rendendo complesso il blocco definitivo delle attività.
Vulnerabilità strutturali dei LLM accessibili via Internet
I modelli accessibili tramite API pubbliche presentano una vulnerabilità intrinseca: per loro natura devono rispondere a input arbitrari provenienti dall’esterno. Questa apertura rende inevitabile la possibilità di osservare il comportamento del sistema su larga scala. Anche in presenza di meccanismi di protezione, come il filtraggio dei prompt o il rilevamento di pattern sospetti, un attaccante determinato può distribuire le richieste nel tempo per evitare le soglie di rilevazione.
Le difese includono limitazioni di throughput, sistemi di identificazione comportamentale e watermarking delle risposte, ma tali contromisure non eliminano il rischio di estrazione. Il problema è particolarmente rilevante per i modelli personalizzati addestrati su dati riservati, dove la distillazione potrebbe portare alla perdita indiretta di proprietà intellettuale o alla ricostruzione di logiche proprietarie.
Implicazioni per le aziende e protezione della proprietà intellettuale
Secondo l’analisi del Threat Intelligence Group di Google, la diffusione di modelli custom basati su dati aziendali aumenta l’esposizione al rischio. Un LLM addestrato su decenni di strategie commerciali o informazioni riservate potrebbe essere progressivamente distillato da un attaccante, che attraverso query mirate ricostruisce le logiche decisionali incorporate nel modello.
Dal punto di vista legale, Google considera la distillazione non autorizzata una forma di sottrazione di proprietà intellettuale. Le implicazioni riguardano sia il diritto d’autore sui modelli sia la tutela dei segreti industriali, con possibili ricadute su concorrenza sleale e violazione di licenze d’uso delle API.