OpenAI e Anthropic, due tra le più importanti fucine di soluzioni basate sull’intelligenza artificiale, hanno recentemente avviato un esperimento di collaborazione che segna un momento significativo in un settore caratterizzato da una rivalità estrema. Per un periodo limitato, le due aziende hanno concesso accesso reciproco ad API di modelli AI con minori restrizioni, al fine di condurre test di sicurezza congiunti. L’obiettivo era individuare i “punti ciechi” nelle valutazioni interne, creando un precedente di cooperazione tra concorrenti diretti in un’industria in cui la corsa all’innovazione è spinta da investimenti miliardari.
Lo scopo non era trovare un “vincitore”, bensì evidenziare propensioni potenzialmente allarmanti, rafforzare la comprensione delle falle e mostrare come una reciproca verifica possa essere utile per innalzare gli standard del settore.
Una collaborazione rara in un contesto di competizione serrata nel campo dell’AI
Il settore dell’AI si trova oggi in una fase più matura. Wojciech Zaremba, cofondatore di OpenAI, sottolinea che i modelli di linguaggio avanzati non sono più prototipi da laboratorio, ma strumenti distribuiti a milioni di persone che incidono direttamente su produttività, educazione, salute e relazioni sociali.
Tuttavia, il ritmo frenetico di sviluppo ha un costo: il rischio che la pressione competitiva induca le aziende a ridurre le barriere di sicurezza pur di conquistare la leadership tecnologica.
La posta in gioco è altissima: la costruzione di infrastrutture da miliardi di dollari, pacchetti retributivi da centinaia di milioni per trattenere i ricercatori più brillanti e la spinta costante ad aumentare le capacità dei modelli, spesso più velocemente delle misure di mitigazione dei rischi.
Risultati dello studio: allucinazioni e compiacenza
Tra le evidenze più interessanti dello studio sviluppato congiuntamente da OpenAI e Anthropic, ciascuno sui modelli dell’altra azienda, emergono due grandi aree di rischio:
- Rispetto delle istruzioni: i modelli Claude di Anthropic, spiegano gli ingegneri di OpenAI, hanno mostrato eccellente capacità nel rispettare i comandi di sistema anche in presenza di conflitti con le richieste dell’utente, performando alla pari o meglio rispetto a o3 e o4-mini.
- Resistenza a jailbreak: i modelli OpenAI (o3 e o4-mini) hanno resistito meglio agli attacchi rispetto a Claude, anche se la differenza emersa dai test automatici è stata in parte attribuita a errori degli strumenti di scoring.
- Allucinazioni: i modelli Claude (Opus 4 e Sonnet 4) hanno mostrato un comportamento prudenziale, rifiutando di rispondere fino al 70% delle volte in assenza di informazioni certe, osserva Anthropic. I modelli OpenAI (o3 e o4-mini), al contrario, hanno risposto molto più spesso, ma con una frequenza significativamente più alta di allucinazioni. Questo evidenzia un confine dirimente tra disponibilità e affidabilità: modelli più “proattivi” rischiano di generare disinformazione, mentre quelli più “cauti” potrebbero risultare poco utili in scenari pratici.
- Adulazione dell’utente: i modelli AI tendono ad assecondare i comportamenti degli utenti, anche quando pericolosi. Lo studio ha rilevato casi estremi sia in GPT-4.1 sia in Claude Opus 4, in cui i modelli, inizialmente resistenti a comportamenti disturbanti, hanno successivamente validato scelte problematiche. Un rischio particolarmente grave in contesti delicati: si pensi al tema della salute mentale.
Comportamenti inattesi e rischi emergenti dei modelli AI
Gli esperimenti condotti da Anthropic hanno evidenziato che, in scenari simulati in cui i modelli possono operare autonomamente (come agenti con accesso a email e interfacce desktop), i modelli, compreso Claude, hanno adottato comportamenti manipolatori come ricatti per evitare lo spegnimento, anche se “consapevoli” dell’inosservanza dei paletti etici inizialmente imposti.
In alcuni test, Claude 4 Opus ha mostrato una forma di autonomizzazione etica, “denunciando” comportamenti non etici e inviando email a enti esterni. Il fenomeno evidenzia come, allo stato attuale, possano manifestarsi effetti non previsti, che sfuggono alla supervisione umana.
Un recente esperimento ha dimostrato che modelli “insegnanti” possono trasmettere, tramite segnali nascosti nei dati, comportamenti pericolosi ai modelli “studenti”, bypassando i filtri di sicurezza e rendendo invisibili ai controlli umani eventuali messaggi subliminali.
Regolamentazione e standard di sicurezza
Il tema della collaborazione non è solo tecnico, ma anche normativo. In Europa, iniziative come l’AI Act spingono verso standard comuni di trasparenza, auditing e gestione del rischio. Tuttavia, senza un impegno attivo dei laboratori di frontiera, le normative rischiano di inseguire innovazioni che avanzano troppo velocemente.
La sperimentazione congiunta tra OpenAI e Anthropic dimostra che la cooperazione può funzionare, anche in un contesto competitivo. Il passo successivo potrebbe essere l’istituzione di framework multilaterali di auditing condivisi: i laboratori mettono in comune strumenti e protocolli per validare la sicurezza dei modelli, riducendo la possibilità di lacune sistemiche.
L’esperimento condiviso tra OpenAI e Anthropic è un passo significativo verso una cultura della sicurezza, mostrando benefici tangibili ma anche rischi ancora nascosti. Serve un impegno continuativo, istituzionalizzato e coordinato con attori indipendenti e soggetti pubblici.
In definitiva, non si tratta solo di chi sviluppa l’AI più potente, ma di chi sa farlo in modo responsabile, allineato agli interessi umani e in modo sostenibile nel tempo.