AI, OpenAI gpt-oss vs Qwen3: tutte le differenze e cosa cambia dal GPT-2

Business

Era addirittura dal 2019, con GPT-2, che OpenAI non rilasciava un modello open-weight (ovvero con pesi rilasciati liberamente) aggiornato. I nuovi Large Language Models (LLM) gpt-oss-20b e gpt-oss-120b rappresentano un’evoluzione dell’architettura Transformer, ottimizzata per essere più efficiente e in grado di funzionare anche su hardware più comune rispetto al passato, grazie a nuove tecniche di quantizzazione e miglioramenti nell’attenzione.

I pesi rappresentano i parametri numerici che il modello apprende durante l’addestramento; essi determinano come sono elaborate e trasformate le informazioni in ingresso per generare risposte accurate. Il meccanismo di attenzione consente invece al modello di focalizzarsi sulle parti più rilevanti del testo in input, assegnando diversi pesi in termini di importanza a ciascuna parola o token, migliorando così la qualità della comprensione e della generazione del linguaggio. Ne abbiamo parlato nel dettaglio nell’articolo sull’intelligenza artificiale (AI) spiegata facile.

Cosa è cambiato dall’architettura originale di GPT-2?

I modelli open-weight sono modelli AI in cui i “pesi” (come detto, sono parametri numerici che rappresentano la “conoscenza” e le decisioni apprese durante l’addestramento) sono resi disponibili pubblicamente, permettendo a chiunque di scaricarli, usarli, modificarli e testarli liberamente. Non per nulla, grazie a questa rinnovata “apertura” di OpenAI, il runner Ollama ha subito integrato gpt-oss-20b e gpt-oss-120b nel suo servizio cloud Turbo, in modo da poter fare inferenza in modo veloce ed efficace senza dotarsi di super-GPU.

La terminologia open-weight differisce evidentemente da open source perché non è incluso il codice completo di addestramento né i dataset usati, solo i pesi e il codice di inferenza (processo con cui un modello generativo usa le informazioni di addestramento per produrre una conclusione o un risultato).

Le innovazioni dei nuovi modelli OpenAI gpt-oss-20b e gpt-oss-120b confrontate con GPT-2

In un articolo approfondito, Sebastian Raschka, esperto di AI, ricercatore e autore di successo, noto per il suo lavoro nel campo del machine learning e dei LLM, ha messo a confronto GPT-2 con gli ultimi modelli open-weight di OpenAI rilasciati a inizio agosto 2025.

Addio Dropout: GPT-2 usava un meccanismo chiamato “dropout” per evitare che il modello si “fissasse” troppo sui dati di addestramento (overfitting). Oggi, con dataset enormi e un solo passaggio di training, si è scoperto che questa tecnica non serve più e causa solo rallentamenti.
Nuovo modo di rappresentare la posizione delle parole (RoPE): In un testo, la posizione delle parole è importante per capirne il significato. GPT-2 usava “positional embeddings” assoluti, cioè numeri che assegnavano una posizione fissa. I modelli gpt-oss usano invece “Rotary Position Embeddings” (RoPE), un metodo più elegante che “ruota” vettori per codificare la posizione, aiutando il modello a capire meglio l’ordine delle parole.
Feed-forward migliorato con SwiGLU: Nel cuore di ogni strato Transformer c’è una rete chiamata feed-forward. gpt-oss sostituisce una funzione di attivazione chiamata GELU con una più efficiente e performante chiamata SwiGLU, che rende il modello più espressivo senza aumentare troppo il numero di parametri.
Mixture-of-Experts (MoE): Invece di usare un solo feed-forward, gpt-oss usa tanti piccoli “esperti” specializzati, ma ne attiva solo pochi per token. È come avere una squadra di specialisti e chiamare in causa solo quelli necessari per il compito in corso, risparmiando risorse.
Gruppi nei meccanismi di attenzione (Grouped Query Attention, GQA): Invece di far funzionare ogni “attention head” in maniera indipendente, gpt-oss condivide chiavi e valori tra gruppi, riducendo i costi computazionali e di memoria. Un’attention head è una singola “unità” del meccanismo di attenzione che esamina il testo da una prospettiva specifica, permettendo al modello di focalizzarsi contemporaneamente su diverse parti della frase, per cogliere informazioni rilevanti in modo più efficace.
Attenzione a finestre mobili (Sliding Window Attention): Per risparmiare memoria, gpt-oss applica l’attenzione non su tutta la frase ma su finestre di larghezza limitata (128 parole). Così il modello è più leggero e veloce, senza perdere troppo contesto.

Ottimizzazioni pratiche importanti

Raschka spiega inoltre che un’estensione tecnica chiamata MXFP4, permette di ridurre la dimensione dei dati del modello senza perdere in qualità, facilitando l’esecuzione di gpt-oss 120B su una singola GPU da 80GB di VRAM, invece che richiedere macchine multi-GPU costosissime. Il modello più piccolo (20B) funziona persino su GPU consumer con 16GB, grazie alla stessa ottimizzazione.

Ancora, gpt-oss permette di scegliere quanto “sforzo” dedicare alla generazione della risposta (basso/medio/alto): così si può bilanciare velocità, consumo e accuratezza a seconda del caso d’uso.

Confronto fra Cina e USA: gpt-oss contro Qwen3 e viceversa

Il braccio di ferro tra Cina e USA non si gioca ormai soltanto sugli equilibri geopolitici. La sfida è sempre più sul piano tecnico con Raschka che di fatto “certifica” l’abilità del modello cinese Qwen3.

Qwen3 è una famiglia di LLM sviluppata da Alibaba Cloud, la divisione cloud computing del gigante tecnologico cinese Alibaba Group. Presentata ufficialmente a fine aprile 2025, Qwen3 rappresenta un significativo passo avanti nell’intelligenza artificiale open-weight, sfidando direttamente leader del settore come OpenAI e Google.

Secondo l’analisi condivisa da Raschka, Qwen3 è molto più profondo (cioè più strati Transformer, 48 contro 24), mentre gpt-oss è più largo (dimensione degli embedding più grande).

Per comprendere meglio, basti immaginare una torta. Qwen3 è più alta con più strati sottili, gpt-oss è più grande e larga. Entrambi hanno vantaggi diversi: più strati spesso significano capacità migliore di apprendimento gerarchico, ma una maggiore lentezza e instabilità; una larghezza più generosa implica un’inferenza più veloce e migliore parallelizzazione.

Inoltre, mentre Qwen3 usa molti “experts” piccoli e ne attiva diversi per ogni token; gpt-oss ne usa meno, ma più grandi in un compromesso tra capacità e costo di calcolo.

Per quanto riguarda il meccanismo di attenzione, gpt-oss usa la “sliding window” alternata con attenzione completa; Qwen3 usa sempre un'”attenzione completa”, più costosa in memoria ma teoricamente con più contesto.