Claude Fable 5: Anthropic cambia le regole e scatena polemiche

Claude Fable 5 finisce al centro delle polemiche per restrizioni nascoste e falsi positivi. Anthropic corregge la rotta.
Claude Fable 5: Anthropic cambia le regole e scatena polemiche

Il 9 giugno 2026 Anthropic ha lanciato Claude Fable 5, variante pubblica del modello riservato Claude Mythos 5.

L’obiettivo era rendere accessibili capacità avanzate in programmazione, ricerca scientifica e analisi complessa, introducendo al tempo stesso controlli automatici per limitare usi ad alto rischio in settori come cybersicurezza, biologia e chimica.

Poche ore dopo il rilascio, ricercatori, sviluppatori e specialisti di sicurezza hanno iniziato a segnalare comportamenti inattesi e un numero elevato di falsi positivi, scatenando un dibattito che ha costretto l’azienda a rivedere rapidamente le proprie scelte.

Falsi positivi e classificatori troppo aggressivi

Anthropic aveva dichiarato che meno del 5% delle sessioni avrebbe attivato i meccanismi di fallback, con reindirizzamento automatico verso il modello meno potente Claude Opus 4.8.

Nella pratica, però, le cose sono andate diversamente. L’immunologo Derya Unutmaz ha raccontato pubblicamente di aver visto scattare le protezioni semplicemente usando terminologia oncologica standard. Diversi osservatori hanno ipotizzato che il sistema valutasse non solo il singolo prompt, ma anche lo storico delle conversazioni e il profilo dell’utente. Anthropic non ha fornito dettagli tecnici completi, alimentando le critiche sulla scarsa trasparenza dei processi di moderazione automatica.

Il punto più controverso riguarda una salvaguardia specifica descritta nella system card ufficiale: il modello limitava attivamente le richieste collegate allo sviluppo di altri sistemi di Intelligenza Artificiale avanzata.

Tra gli scenari bloccati figuravano la costruzione di infrastrutture per il training distribuito, la progettazione di acceleratori hardware per il machine learning e la realizzazione di processi di preaddestramento per nuovi modelli linguistici. A differenza delle restrizioni su cybersicurezza e biosicurezza, questa misura non avvisava l’utente né eseguiva un passaggio esplicito verso un modello diverso: degradava silenziosamente le risposte.

La comunità open source ha reagito con durezza, sottolineando come una penalizzazione invisibile ostacoli la ricerca legittima, renda impossibile valutare oggettivamente le prestazioni reali del modello e allarghi il divario tra grandi laboratori commerciali e gruppi indipendenti.

Anthropic corregge il tiro e punta sulla visibilità

Sotto la pressione della comunità, Anthropic ha riconosciuto di aver sottostimato il livello di trasparenza necessario e ha annunciato una modifica delle salvaguardie.

Il sistema mostrerà ora esplicitamente l’intervento della protezione ogni volta che rileva attività riconducibili allo sviluppo di modelli AI avanzati, invece di degradare le risposte in modo silenzioso. La vicenda segna un passaggio importante per l’intero settore: i fornitori di modelli avanzati stanno abbandonando le tradizionali politiche di rifiuto esplicito in favore di sistemi articolati di classificazione del contesto. La trasparenza delle misure adottate si candida a diventare un requisito fondamentale, al pari della loro efficacia tecnica.

Ti consigliamo anche

Link copiato negli appunti