Come abbiamo visto nell’articolo sull’intelligenza artificiale spiegata facile, la qualità dell’output ovvero della risposta fornita dal modello generativo a valle della richiesta dell’utente (prompt) può variare sulla base di molteplici fattori. Ispirandosi all’iniziativa globale Chatbot Arena, indigo.ai, leader italiano per gli assistenti virtuali basati su agenti AI di ultima generazione, ha presentato un progetto simile incentrato sulla lingua italiana.

Chatbot Arena Italia: come confrontare le prestazioni di oltre 30 LLM

Supponete di non conoscere con quale Large Language Model (LLM) state dialogando. Inviate la vostra richiesta ed esaminate attentamente, con spirito critico, la risposta fornita dal modello AI. Chatbot Arena Italia permette di fare proprio questo: lo stesso prompt dell’utente è trasferito a due LLM scelti casualmente. È quindi possibile analizzare le risposte ricevute valutando quelle ritenute migliori. Solo dopo aver espresso un giudizio si conosceranno i nomi dei due modelli generativi scelti in modo casuale.

La nuova piattaforma crowdsourced gratuita, accessibile cliccando qui, permette di interagire in italiano con i principali modelli linguistici, confrontandoli quindi l’uno con l’altro.

Gli utenti possono sottoporre le loro richieste ai diversi LLM disponibili, ricevere risposte e votare quelle migliori, contribuendo così a determinare la qualità dei modelli, specificamente per la lingua italiana.

Un confronto diretto tra i modelli generativi

indigo.ai spiega che l’Artificial Intelligence Index Report 2024 (Stanford University, 2024) evidenzia come, soltanto nel 2023, il numero di modelli linguistici di grandi dimensioni rilasciati a livello mondiale sia raddoppiato rispetto all’anno precedente. Si tratta di un trend destinato a crescere, tanto che solo nelle ultime settimane sono stati annunciati nuovi modelli sia globali (come o3-mini di OpenAI, DeepSeek R1 e xAI Grok 3), sia specifici per l’Italia (come Modello Italia di Igenius, Velvet di Almawave e Vitruvian-1 di ASC27).

Tale fenomeno conferma la necessità di avvalersi di strumenti di valutazione che permettano di confrontare i diversi LLM, così da favorirne l’ulteriore miglioramento e poterne sfruttare appieno le potenzialità.

Cliccando sulla scheda Leaderboard, è possibile conoscere quali modelli generativi hanno al momento ottenuto i migliori risultati in termini di qualità dell’output prodotto.

Le modalità di confronto

La scelta casuale di due modelli AI è parte integrante del test Arena (battaglie). In alternativa, è possibile fare clic sulla scheda Arena (fianco a fianco) per selezionare due modelli specifici tra quelli disponibili sulla piattaforma, da interrogare con lo stesso prompt. Non essendo condotte con modelli anonimi, tuttavia, tali interazioni non contribuiscono a stilare la classifica di Chatbot Arena Italia.

Come terza e ultima opzione, la scheda Chat diretta consente di avviare una conversazione con uno specifico modello linguistico. L’utente ha poi la possibilità di esprimere un giudizio finale.

Creare un ecosistema di Gen AI in Italia

Enrico Bertino, co-fondatore e Chief AI Officer di indigo.ai, spiega che il progetto Chatbot Arena Italia nasce dalla mancanza di una classifica solida e affidabile per le performance dei modelli di linguaggio in italiano.

“In indigo.ai lavoriamo con l’intelligenza artificiale già dal 2016: per questo siamo consapevoli del ruolo attivo che la community svolge in ambito AI“, osserva Bertino. “Il nostro obiettivo è quello di favorire lo sviluppo di un vero e proprio ecosistema della Gen AI in Italia, promuovendo un confronto trasparente e collaborativo tra i suoi protagonisti. Siamo convinti che la piattaforma possa diventare un vero e proprio punto di riferimento per appassionati ed esperti del settore, poiché rappresenta uno strumento essenziale per mappare in modo chiaro e trasparente lo stato dell’arte degli LLM nel nostro Paese“.

Credit immagine in apertura: iStock.com – BlackJack3D