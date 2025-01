Il settore dell’intelligenza artificiale è in continua evoluzione, e quando sembrava che l’attenzione si stesse spostando verso gli Agenti AI, ecco che arrivano nuovi modelli capaci di ridefinire gli standard di riferimento.

Negli ultimi giorni, DeepSeek-V3 ha attirato l’attenzione, ma ora è Alibaba Cloud a rubare la scena con il lancio di Qwen2.5-Max, un modello linguistico avanzato che ha superato DeepSeek-V3 in diversi test di performance.

Qwen2.5-Max: i risultati dei benchmark

Alibaba ha sottoposto il suo nuovo modello a una serie di test di riferimento, confrontandolo con i principali LLM (Large Language Models) sul mercato. Ecco i punteggi ottenuti:

Arena-Hard : misura la preferenza degli utenti nei confronti delle risposte AI. Qwen2.5-Max ha raggiunto 89,4 , superando DeepSeek-V3 (85,5) ;

: misura la preferenza degli utenti nei confronti delle risposte AI. , superando ; MMLU-Pro : valuta la conoscenza accademica a livello universitario. Claude Sonnet è primo con 78,0 , mentre Qwen2.5-Max segue con 76,1 ;

: valuta la conoscenza accademica a livello universitario. , mentre ; GPQA-Diamond : testa la capacità di rispondere a domande generali. Qwen2.5-Max ha ottenuto 60,1 , dietro a Claude Sonnet (65,0) ;

: testa la capacità di rispondere a domande generali. , dietro a ; LiveCodeBench : misura le capacità di programmazione. Qwen2.5-Max ha registrato 38,7 , poco sotto Claude (38,9) ;

: misura le capacità di programmazione. , poco sotto ; LiveBench: un test generale delle capacità AI. Qwen2.5-Max ha battuto DeepSeek-V3 con un punteggio di 62,2 contro 60,5.

Un rivale per i modelli di punta

Dai test emerge che Qwen2.5-Max non solo compete con modelli leader come GPT-4o e Claude-3.5 Sonnet, ma in alcuni casi li supera. Questo dimostra l’impegno di Alibaba nel consolidarsi come un attore chiave nel panorama dell’intelligenza artificiale generativa.

Disponibilità e funzionalità

Per ora, Qwen2.5-Max è accessibile agli sviluppatori tramite API su Alibaba Cloud, facilitando l’integrazione in diverse piattaforme. Gli utenti finali possono testarlo attraverso Qwen Chat, che include funzioni avanzate come generazione di immagini e video. Inoltre, è prevista l’introduzione della ricerca web, una funzione attualmente segnalata come “in arrivo”. Potete usare tutto da questo link.

Il lancio di Qwen2.5-Max segna un ulteriore passo avanti nella competizione globale tra i giganti della tecnologia. L’ottimizzazione delle risorse computazionali e lo sviluppo di modelli sempre più avanzati stanno accelerando l’adozione dell’intelligenza artificiale in diversi settori, dal business alla ricerca scientifica.

Alibaba ha dimostrato di poter competere con i colossi dell’AI, e il successo di Qwen2.5-Max potrebbe ridefinire le strategie future dell’intero settore.