Benchmark Google smaschera Gemini 3 Pro e ChatGPT-5: ecco i limiti emersi

Test FACTS: i principali modelli AI non superano il 70% di accuratezza con grandi rischi per settori critici.
Benchmark Google smaschera Gemini 3 Pro e ChatGPT-5: ecco i limiti emersi

Il nuovo studio condotto da Google e presentato attraverso il FACTS Benchmark Suite segna un momento cruciale nella valutazione delle capacità dei principali chatbot AI.

I dati emersi sono tanto sorprendenti quanto rivelatori: nessuno dei modelli di punta supera il 70% di accuratezza nelle risposte fornite. In particolare, Gemini 3 Pro si posiziona in vetta con un punteggio del 68,8%, seguito da Gemini 2.5 Pro (62,1%) e ChatGPT-5 (61,8%). Un risultato che pone interrogativi urgenti sull’affidabilità di questi sistemi, soprattutto quando si tratta di interpretare dati visivi o documentali specifici.

L’analisi di Google si concentra su quattro dimensioni chiave, fondamentali per comprendere i limiti e le potenzialità degli LLM. In primo piano la conoscenza parametrica, ovvero l’insieme di informazioni assorbite durante la fase di addestramento; la capacità di utilizzare strumenti di ricerca online per aggiornare le risposte; il rispetto rigoroso del grounding, che consiste nell’aderenza puntuale alle fonti di riferimento senza generare informazioni inventate; e infine la competenza multimodale, cioè la capacità di interpretare e comprendere grafici, immagini e schemi complessi.

Gemini 3 Pro si comporta meglio della concorrenza, ma non è abbastanza

Le differenze tra i modelli risultano marcate: Gemini 3 Pro emerge come il più preciso, mentre Claude 4.5 Opus chiude la classifica con un modesto 51,3%. Particolarmente delicata è la situazione delle prove multimodale, dove la quasi totalità dei sistemi scende sotto la soglia del 50%. Questo dato segnala un rischio concreto: quando i chatbot si trovano di fronte a tabelle, grafici o rappresentazioni visive, la probabilità di errori interpretativi aumenta sensibilmente, con potenziali ricadute su settori in cui la precisione è imprescindibile.

Uno degli aspetti più problematici evidenziati dal FACTS Benchmark Suite riguarda il tono di comunicazione dei modelli: spesso i sistemi espongono le risposte con sicurezza anche quando commettono errori. Questa caratteristica rende estremamente difficile per l’utente distinguere tra risposte affidabili e vere e proprie allucinazioni del modello. Proprio per arginare tali criticità, gli autori dello studio suggeriscono l’adozione di meccanismi di verifica umana obbligatoria, insieme a sistemi di controllo e guardrail più robusti, soprattutto nei settori regolamentati come la finanza, la medicina e il diritto.

Un dibattito acceso

Il dibattito nella comunità scientifica si concentra su due ordini di problemi: da un lato, i limiti intrinsechi dell’architettura dei modelli, dall’altro le difficoltà metodologiche nella loro valutazione. I test sulla conoscenza parametrica dimostrano come i sistemi rimangano fortemente vincolati ai dati su cui sono stati addestrati, mentre l’integrazione con il web non sempre garantisce risposte corrette. Il tema del grounding si conferma centrale: anche un modello in grado di generare narrazioni coerenti può facilmente scivolare nella produzione di informazioni non supportate dalle fonti, se non viene vincolato da controlli stringenti.

Per le aziende e le pubbliche amministrazioni che stanno implementando LLM nei propri processi, il rapporto suggerisce una serie di strategie operative: adottare verifiche incrociate sistematiche, limitare l’autonomia decisionale dell’AI nelle attività sensibili, rafforzare i sistemi di tracciabilità e audit, e sviluppare metriche specifiche per la valutazione delle competenze multimodale. Diversi esperti propongono inoltre di rivedere le modalità con cui i modelli comunicano il proprio livello di confidenza, evitando che il sistema trasmetta un senso di certezza quando il margine di errore è significativo.

Ti consigliamo anche

Link copiato negli appunti