/https://www.ilsoftware.it/app/uploads/2025/02/GPT-4.5-openai.jpg)
OpenAI ha recentemente introdotto nuovi modelli di reasoning, progettati per migliorare le capacità di ragionamento logico delle macchine. Tuttavia, questi sistemi di intelligenza artificiale avanzata sembrano affrontare un paradosso: mentre diventano più sofisticati nel pensiero, la loro affidabilità diminuisce drasticamente. I tassi di errore associati a questi modelli sono impressionanti, con i sistemi GPT o3 e o4-mini che producono “allucinazioni” o informazioni false in una percentuale sorprendentemente alta di casi.
ChatGPT ha le allucinazioni
Quello delle allucinazioni e degli errori grossolani è un problema ben noto di tutti i chatbot. Ma secondo quanto riportato dal New York Times la cosa starebbe degenerando.
Secondo i test interni di OpenAI, il modello GPT o3 genera risposte errate nel 33% delle domande relative a figure pubbliche, una percentuale più che doppia rispetto al suo predecessore. La situazione è ancora più critica con il modello o4-mini, che raggiunge un tasso di errore del 48%.
Quando si analizzano i risultati su benchmark di conoscenza generale, come il SimpleQA-Benchmark, le prestazioni crollano ulteriormente: GPT o3 registra un 51% di errori, mentre o4-mini arriva a un allarmante 79% di risposte sbagliate. Questi dati evidenziano un problema significativo legato alle cosiddette allucinazioni IA, fenomeno in cui i modelli generano informazioni non basate su fatti reali.
Perché le allucinazioni aumentano
I nuovi modelli di reasoning cercano di replicare il ragionamento umano scomponendo problemi complessi in sequenze logiche, invece di affidarsi esclusivamente a statistiche. Tuttavia, questo approccio più sofisticato sembra favorire la propagazione di errori.
Ogni passaggio logico aggiuntivo introduce nuove possibilità di imprecisione, amplificando gli errori nella risposta finale. Come confermato dalla portavoce di OpenAI, Gaby Raila, l’azienda sta conducendo ricerche per comprendere e mitigare questo fenomeno, soprattutto considerando l’impiego di tali sistemi in settori sensibili come la sanità, l’istruzione e la pubblica amministrazione.
Questa elevata frequenza di errori solleva interrogativi fondamentali sull’efficacia dell’IA, perché l’automazione perde significato quando ogni risultato richiede verifica umana. Questo problema richiama alla mente l'”Eliza-Effect” degli anni ’80, quando gli utenti attribuivano capacità sovrumane a chatbot relativamente semplici.
La differenza, oggi, è che i sistemi di intelligenza artificiale avanzata sembrano “convinti” delle proprie conoscenze, anche quando queste sono palesemente errate. Questo comportamento non solo mina la fiducia degli utenti, ma può avere conseguenze gravi in contesti critici.