OpenAI, nelle scorse ore, ha lanciato il progetto BrowseComp. Stiamo parlando di un nuovo benchmark AI che permette di testare le capacità dell’Intelligenza Artificiale quando si tratta di effettuare ricerche sul web.

Progettato per superare i limiti di strumenti precedenti come SimpleQA, questo sistema di valutazione si presenta come un test rigoroso composto da 1266 quesiti attentamente selezionati dagli esperti di OpenAI. Un aspetto distintivo di BrowseComp è la sua varietà tematica, che permette alle domande di trattare TV e film (tema che costituisce il 16,2% dei quesiti) a scienza e tecnologia (13,7%) fino all’ arte (10%).

I risultati dei test condotti con questo strumento rivelano dati a dir poco interessanti. Gli esseri umani riescono a risolvere solo il 29,2% delle domande entro due ore, con risposte esatte nell’86,4% dei casi.

BrowseComp: ecco i risultati ottenuti dai modelli di OpenAI

Per quanto riguarda le prestazioni delle AI, le differenze sono significative tra i vari modelli: GPT-4o ha ottenuto un modesto 0,6% di risposte corrette, mentre OpenAI o1 ha raggiunto il 9,9%. Al contrario, il sistema Deep Research, specializzato nella ricerca web, ha ottenuto un risultato più apprezzabile, ovvero ha raggiunto il 51,5% di risposte corrette.

Un’analisi più approfondita del benchmark mostra che il 16% delle domande ha un tasso di accuratezza del 100%, mentre il 14% dei quesiti rimane completamente irrisolto. È interessante notare che, anche di fronte alle domande più complesse, l’AI dimostra la capacità di riconoscere e supportare le risposte corrette quando queste vengono presentate. Questo dato evidenzia il potenziale delle AI nel contribuire alla conferma di informazioni.

Il valore di BrowseComp non si limita alla capacità di trovare informazioni, andando oltre e valutando anche altre competenze cruciali, come la flessibilità nel riformulare le ricerche e la capacità di sintetizzare dati provenienti da fonti diverse. Tuttavia, OpenAI sottolinea che il test si concentra solo su domande con una singola risposta corretta, lasciando aperta la questione di come queste capacità possano essere applicate a quesiti senza risposte assolute.