Anthropic ha accusato gruppi collegati ad Alibaba e al laboratorio Qwen di aver condotto una campagna sistematica per estrarre informazioni comportamentali dal modello Claude attraverso un volume massiccio di interrogazioni.
Secondo quanto riportato da Reuters, la società avrebbe individuato circa 25.000 account fraudolenti responsabili di oltre 28,8 milioni di interazioni con il sistema. L’obiettivo sarebbe stato ricostruire indirettamente le capacità del modello senza accesso al codice sorgente o ai dati di addestramento, sfruttando invece le risposte prodotte dall’AI durante l’uso ordinario.
Cos’è la model distillation e perché è un problema
La tecnica al centro dell’accusa è nota come model distillation: un modello avanzato viene usato come insegnante involontario e le sue risposte vengono raccolte su larga scala per addestrare un sistema concorrente. Il risultato non replica l’intero processo di training originale, ma può avvicinarne le capacità operative in domini specifici come programmazione, ragionamento agentico e generazione di codice.
Il punto tecnico è nella natura stessa dei large language model: ogni risposta riflette distribuzioni probabilistiche apprese durante l’addestramento. Interrogazioni ripetute e ben strutturate possono quindi trasformarsi in una forma di estrazione distribuita di conoscenza, anche senza accesso ai dati originali. Questo rende il confine tra utilizzo legittimo e appropriazione tecnologica particolarmente difficile da definire sul piano legale e tecnico.
Le aziende del settore hanno iniziato a considerare contromisure come rate limiting avanzato, rilevamento di pattern anomali e filtri sulle query ripetitive, ma nessuna elimina completamente il rischio di raccolta massiva di output utili alla replica.
Competizione, regolatori e posta in gioco
Anthropic non è la prima a sollevare questo tipo di preoccupazione. In passato ha citato casi analoghi che coinvolgono DeepSeek, Moonshot AI e MiniMax.
Anche OpenAI ha espresso timori simili, segnalando come l’estrazione sistematica di comportamento possa erodere il vantaggio competitivo derivante da investimenti miliardari in addestramento.
Il nodo centrale è la possibilità che il valore di un modello non risieda solo nella sua architettura o nei dati utilizzati, ma anche nella difficoltà di replicarne il comportamento emergente. Se tale comportamento può essere approssimato attraverso interrogazioni massive, il costo di ingresso per nuovi concorrenti si riduce significativamente, alterando la dinamica competitiva dell’intero settore.
Alibaba non ha rilasciato dichiarazioni pubbliche sulle accuse. L’assenza di una conferma indipendente mantiene la vicenda in una fase preliminare, ma il solo sollevare il tema ha effetti concreti sul dibattito regolatorio. Le autorità statunitensi stanno già valutando meccanismi di controllo sull’accesso ai modelli avanzati tramite API pubbliche, in una fase in cui i sistemi AI vengono trattati sempre più come asset strategici nazionali.