Apple, con il suo recente studio intitolato “The Illusion of Thinking”, ha sollevato dubbi importanti sulle reali capacità di ragionamento delle moderne intelligenze artificiali. Secondo il team di ricerca dell’azienda di Cupertino, anche i più avanzati modelli AI basati sul ragionamento falliscono in modo sistematico quando messi alla prova con compiti di pianificazione complessi, come i più classici puzzle logici.
La tesi centrale dello studio elaborato da Apple è chiara: le attuali AI, pur producendo risposte coerenti e linguisticamente fluide, mancano di una comprensione profonda e scalabile dei problemi, dando solo l’illusione di ragionare. Un punto di vista che ha già scatenato un acceso dibattito nel mondo accademico e tra i principali attori del settore AI.
Per tutta risposta, C. Opus e A. Lawsen, ricercatori presso Open Philanthropy, hanno pubblicato una dettagliata controanalisi dal titolo emblematico: “The Illusion of the Illusion of Thinking”. Il testo smonta gran parte delle conclusioni dell’indagine elaborata da Apple. Secondo gli autori della nuova analisi, molti dei risultati del team di Cupertino non riflettono tanto limiti intrinseci nei modelli di AI, quanto errori metodologici e bias nella fase di valutazione.
Modelli AI: più che limiti di ragionamento, limiti di valutazione
Lawsen non nega che i modelli AI reasoning oggi incontrino difficoltà in compiti di pianificazione a lungo termine. Tuttavia, contesta il modo in cui Apple ha interpretato quei limiti. Le sue critiche principali si articolano in tre punti fondamentali:
- I limiti del budget di token sono stati ignorati. Apple sostiene che i modelli falliscono sistematicamente in puzzle come la Torre di Hanoi con più di 8 dischi. Ma Lawsen osserva che, in quei casi, i modelli – come Claude di Anthropic – avevano già raggiunto i limiti massimi di token in output. In alcuni casi, i modelli dichiarano apertamente: “il pattern continua, ma mi fermo qui per risparmiare token”. Insomma, il problema non è il fallimento del ragionamento, ma un vincolo tecnico nell’infrastruttura del modello.
- Puzzle matematicamente impossibili sono stati conteggiati come errori. Nel test River Crossing, Apple include istanze che, secondo Lawsen, non sono logicamente risolvibili: ad esempio, più di sei attori da trasportare con una barca di capacità insufficiente. I modelli, riconoscendo l’impossibilità, si rifiutavano di procedere. Apple ha considerato questo comportamento come un fallimento, ma forse andrebbe visto come un segno di comprensione corretta del problema.
- I criteri di valutazione confondevano fallimenti logici e troncamenti. Apple ha utilizzato pipeline automatiche per giudicare le risposte dei modelli, basandosi unicamente sulla presenza di liste complete di mosse. Tuttavia, anche quando il compito era troppo lungo per rientrare nel limite di token, il sistema classificava l’output come un fallimento, senza distinguere tra troncamento tecnico e fallimento concettuale.
Una nuova proposta: generare codice invece di elencare mosse
Per dimostrare la sua tesi, Lawsen ha ripetuto alcuni dei test utilizzando un approccio diverso: ha chiesto ai modelli di scrivere una funzione ricorsiva in Lua per risolvere la Torre di Hanoi, invece di elencare ogni singola mossa.
Il risultato? I modelli – tra cui Claude, Gemini e OpenAI o3 – hanno generato soluzioni corrette anche per istanze da 15 dischi, un livello di complessità che Apple ha etichettato come completamente fallimentare. In questo contesto, i modelli hanno dimostrato di “comprendere l’algoritmo” pur non potendo eseguire un output lineare completo per vincoli tecnici.
Secondo Lawsen, l’intero dibattito mette in luce un tema più ampio: la differenza tra capacità di ragionamento e capacità di produzione testuale. Il rischio, sostiene, è quello di confondere un limite nell’infrastruttura (i.e. numero massimo di token supportati) con una reale incapacità del modello.
Conclusione: serve una metrica più adatta
Il confronto tra la posizione di Apple e quella di Open Philanthropy non è solo accademico: influisce sul modo in cui giudichiamo lo stato attuale dell’intelligenza artificiale e la sua futura evoluzione. Se i criteri di valutazione sono distorti, anche le nostre conclusioni rischiano di esserlo.
Lawsen non afferma che i modelli più moderni abbiano già raggiunto la piena capacità di generalizzazione algoritmica. Ma invita a maggiore cautela nel trarre conclusioni definitive. Forse, prima di dire che “l’AI non sa ragionare”, dovremmo chiederci: stiamo davvero testando le modalità di reasoning? O solo la capacità di scrivere lunghi testi sotto vincoli artificiali?