Quando una delle aziende più avanzate nel campo dell’hardware e del machine learning come Apple pubblica una ricerca che mette a nudo i limiti strutturali dei Large Language Models (LLM), è il momento di prestare attenzione. Il lavoro, co-firmato da ricercatori di spicco, mette in discussione le speranze di realizzare un’Intelligenza Artificiale Generale (AGI), mostrandone le fragilità con esempi concreti. Lo studio della Mela, disponibile a questo indirizzo, dimostra anche l’illusorietà dei moderni modelli AI basati sul “ragionamento”.
Il nodo centrale del lavoro di Apple rafforza la tesi portata innanzi da tanti esperti: le reti neurali (inclusi i LLM) eccellono nella generalizzazione entro la distribuzione dei dati con cui sono state addestrate, ma falliscono al di fuori di essa.
Cosa significa “generalizzazione entro la distribuzione”?
Durante l’addestramento, un LLM riceve un’enorme quantità di testi e dati: libri, articoli, codice, conversazioni, e così via. Tutto questo insieme di dati costituisce una distribuzione, cioè una rappresentazione statistica dei tipi di esempi, strutture, concetti e domande presenti nel materiale.
“Generalizzare entro la distribuzione” significa che il modello è in grado di: riconoscere schemi e strutture comuni nei dati su cui è stato addestrato nonché rispondere correttamente a domande, completare frasi, scrivere codice, quando le richieste sono simili (statisticamente o concettualmente) a ciò che ha già “visto” in fase di addestramento.
Quando il modello è messo alla prova con problemi, dati o formulazioni diverse, nuove o rare, che non seguono gli stessi schemi presenti nel set di addestramento (cioè fuori distribuzione), le sue prestazioni crollano o diventano inaffidabili.
I limiti si manifestano in contesti semplici ma emblematici: anche fornendo l’algoritmo di soluzione, i modelli non riescono a seguire in modo corretto i passaggi logici per risolvere il problema.
Questo, come osserva il co-autore Iman Mirzadeh, non è un problema di conoscenza, ma di processualità: i modelli non riescono a simulare in modo affidabile un comportamento logicamente coerente.
La “catena di pensiero” è un’illusione?
Come abbiamo evidenziato in altri articoli, è sempre bene porre il termine “ragionamento” tra virgolette quando si parla di intelligenza artificiale e, nello specifico di modelli generativi.
In un nostro approfondimento ci siamo chiesti se l’AI possa davvero ragionare: il concetto da tenere a mente è che un modello AI non pensa, non c’è una vera “comprensione” dei testi e del contesto. Un LLM può infatti far leva esclusivamente su una sofisticata manipolazione di rappresentazioni numeriche.
La Chain of Thought (CoT o catena di pensiero) è una tecnica avanzata utilizzata nei moderni modelli di intelligenza artificiale (AI) per migliorare le capacità di ragionamento complesso.
Scomponendo problemi elaborati in passaggi logici intermedi, i LLM possono affrontare compiti che richiedono deduzioni articolate, imitando il processo cognitivo umano.
Il funzionamento della catena di pensiero
Il processo alla base della CoT, si articola in quattro fasi principali:
- Scomposizione del problema: Il compito è suddiviso in sotto-problemi gestibili. Ad esempio, per risolvere un’equazione matematica, il modello identifica prima le operazioni da eseguire.
- Ragionamento passo-passo: Il modello genera esplicitamente ogni fase del pensiero.
- Connessione logica: Ogni passaggio si basa sul precedente, creando un flusso coerente.
- Conclusione finale: La risposta deriva dalla sintesi dei passaggi intermedi, verificando la coerenza interna.
Nell’articolo sull’intelligenza artificiale spiegata facile abbiamo fornito una serie di esempi sulle modalità di “ragionamento” dei moderni LLM.
Apple: il caso della Torre di Hanoi è una vera disfatta
I modelli AI che permettono l’uso del “ragionamento” cercano di simulare processi logici step-by-test ma, secondo Apple, non sono all’altezza delle aspettative.
Il test della Torre di Hanoi, “un classico” anche per chi si occupa di informatica e sviluppo software, è emblematico. Il problema si basa su tre pioli verticali e un certo numero di dischi di dimensioni diverse (di solito 3 o più), impilati in ordine decrescente di grandezza su un piolo.
L’obiettivo consiste nel trasferire tutti i dischi dal piolo iniziale al piolo finale, seguendo queste regole:
- Si può spostare un solo disco alla volta.
- Si può prendere solo il disco superiore di una pila.
- Un disco non può mai essere posato sopra uno più piccolo.
Mentre un bambino di sette anni può risolvere il puzzle con sufficiente pazienza, e mentre un qualsiasi algoritmo ricorsivo lo affronta senza problemi, modelli come Claude e o3-mini falliscono miseramente oltre i 7 dischi. Non solo: anche quando l’algoritmo di risoluzione è fornito esplicitamente al modello, le sue performance comunque non migliorano.
Potete provare a misurarvi con le Torri di Hanoi facendo riferimento a questa pagina Web. La difficoltà del problema cresce esponenzialmente con il numero di dischi: il numero minimo di mosse richieste è infatti pari a 2n – 1.
Il test citato da Apple ben evidenzia che non ci troviamo dinanzi a un semplice problema di calcolo: abbiamo a che fare con un segnale profondo della mancanza di capacità algoritmica interna nei LLM, anche nei più modelli avanzati.
Anche gli umani sbagliano: una tesi debole
Una possibile obiezione rispetto al contenuto dello studio di Apple è che anche gli esseri umani spesso non riescono a risolvere “l’enigma” della Torre di Hanoi già con 8 dischi.
Tuttavia, non abbiamo costruito i computer per imitare le debolezze umane, bensì per superarle. L’AGI, se deve esistere, non può permettersi di sbagliare un calcolo o una valutazione soltanto perché anche gli umani non riescono.
Il punto più critico, inoltre, è che gli LLM non riescono ad apprendere algoritmi sottostanti: si limitano a imitarne il comportamento in certi casi, ma non li internalizzano in modo sistematico. Ciò significa che:
- Non sono in grado di estendere in modo robusto una logica a nuovi casi.
- Possono funzionare su casi facili, inducendo un falso senso di sicurezza.
- Falliscono nel momento in cui si tenta di scalare la complessità.
Il fenomeno dell’“overthinking”
Analizzando le tracce di ragionamento intermedie, utilizzate dai modelli AI, lo studio Apple identifica schemi distinti:
- Nei caso di problemi semplici, i modelli spesso trovano subito la soluzione corretta, ma continuano a esplorare strade sbagliate: un chiaro esempio di “overthinking”.
- Cimentandosi con problemi di media complessità, la soluzione corretta emerge solo dopo lunghe esplorazioni di percorsi errati.
- Consegnando al LLM un quesito complessl, non viene trovata alcuna soluzione corretta, neppure parzialmente.
Questi risultati suggeriscono che i moderni LLM sono solo parzialmente capaci di autocorrezioni e riflettono un uso inefficiente del tempo di inferenza a loro disposizione.
Le implicazioni: fidarsi dei LLM è un rischio secondo Apple
Per il mondo del business e dell’ingegneria, il paper pubblicato da Apple è un po’ una doccia fredda. Se un LLM fallisce con le Torri di Hanoi, figuriamoci con sistemi critici, decisioni legali, controllo di infrastrutture, o modellazione scientifica avanzata.
Come abbiamo ripetutamente sottolineato, quindi, i moderni modelli AI sono preziosissimi ma vanno sempre usati con la massima cautela. Gli LLM non sostituiscono gli algoritmi convenzionali; non battono algoritmi tradizionali in ambiti strutturati come scacchi, folding proteico o gestione di database; anche nella scrittura di codice, restano approssimativi e talvolta allucinatori.
Lo studio Apple ci riporta alla realtà
Il campo delle reti neurali è estremamente vasto e i LLM sono solo una delle loro incarnazioni. Modelli ibridi neurosimbolici, che integrano logica formale e deep learning, potrebbero superare alcuni limiti evidenziati da Apple. Ma ciò richiederà una svolta concettuale; non basta, insomma, scalare solo i parametri.
Chi crede che modelli come Claude od o3 possano essere il mezzo per arrivare a una AGI trasformativa sta semplicemente ignorando le limitazioni che esistono e sono sotto gli occhi di tutti, per chi non si ferma alla superficie.
Un’AGI, o Intelligenza Artificiale Generale, è una forma di intelligenza artificiale in grado di comprendere, imparare e applicare conoscenze a una gamma ampia di compiti cognitivi. È capace di affrontare compiti mai visti prima, adattandosi con flessibilità (generalizzazione forte); apprende senza essere vincolata a compiti specifici o a un addestramento su misura (autonomia cognitiva); può pianificare, riflettere, spiegare le sue decisioni e migliorarsi; integra informazioni da linguaggio, immagini, video, suoni, codice,… (multimodalità); migliora nel tempo attraverso esperienza e feedback (auto-apprendimento continuo).
Apple certifica che siamo ancora lontanissimi da tutto questo. E di conseguenza, anche un’AGI trasformativa, in grado di trasformare radicalmente economia, lavoro, scienza, governance, cultura, e perfino l’evoluzione umana è di là da venire.