/https://www.ilsoftware.it/app/uploads/2024/07/vivaldi-llm-intelligenza-artificiale.jpg)
LM Arena, una delle principali piattaforme di benchmark AI, è finita al centro di un acceso dibattito.
Ricercatori e analisti hanno denunciato un presunto squilibrio nella distribuzione dell’attenzione e delle risorse tra i modelli proprietari e quelli open source. “L’arena valutativa sta diventando un campo di battaglia ingiusto, dove i giganti proprietari hanno un vantaggio strutturale che rischia di soffocare l’innovazione aperta” sostengono i critici.
Secondo una recente analisi, piattaforme di questo tipo tendono a favorire modelli commerciali come Gemini, ChatGPT e Claude, che dominano oltre un terzo dello spazio valutativo. Al contrario, i modelli open source faticano a ottenere visibilità e feedback necessari per migliorarsi.
La concentrazione di dati è particolarmente evidente: Google e OpenAI rappresentano da soli il 34% dei dati presenti, seguiti da altre grandi aziende come Meta, Amazon e xAI. Questo fenomeno crea un circolo vizioso: maggiore visibilità porta a più dati di valutazione, amplificando ulteriormente il divario tra i modelli.
La soluzione per creare un ambiente valutativo più equo su LM Arena
Per riequilibrare questa situazione, lo studio propone una serie di interventi concreti. Tra le misure suggerite vi sono:
- Limitare il numero di modelli che ogni singola azienda può inserire o ritirare prima dei rilasci ufficiali;
- Rendere pubblici tutti i risultati, compresi quelli preliminari;
- Implementare algoritmi di campionamento che garantiscano pari opportunità di visibilità anche ai modelli meno noti.
I gestori di LM Arena hanno risposto alle critiche affermando che le funzionalità di test pre-release sono sempre state trasparenti. Tuttavia, hanno riconosciuto la necessità di migliorare l’algoritmo di campionamento per garantire una maggiore diversità nei confronti tra modelli.
Con la trasformazione di LM Arena in un’entità aziendale, emergono interrogativi sulla sua capacità di mantenere imparzialità. Il metodo di valutazione basato sulle preferenze degli utenti, noto come “vibemarking“, potrebbe favorire modelli più grandi piuttosto che dimostrano effettivamente migliori capacità. Nonostante queste controversie, la piattaforma rimane un punto di riferimento cruciale per il benchmarking dei modelli AI, a prescindere dalla loro origine.