Google amplia la famiglia Gemma 4 con un modello che punta a un obiettivo preciso: portare capacità multimodali avanzate direttamente sui computer portatili senza dipendere dal cloud.
La nuova versione Gemma 4 12B, annunciata il 3 giugno 2026, si colloca tra i modelli edge della serie E e le varianti più potenti da 26 miliardi di parametri. Google sostiene che il modello permetta ragionamento avanzato, elaborazione multimodale e capacità agentiche su dispositivi dotati di appena 16 GB di memoria unificata o VRAM, una configurazione presente in molti notebook moderni e nei computer Apple Silicon di fascia media.
Architettura encoder-free e audio nativo
La caratteristica tecnica più rilevante di Gemma 4 12B è l’architettura encoder-free.
Nei modelli multimodali tradizionali, immagini e audio vengono elaborati da componenti separati prima di essere convertiti in rappresentazioni utilizzabili dal modello linguistico, con costi computazionali aggiuntivi e maggiore consumo di memoria.
Google ha scelto una strada diversa: per le immagini il tradizionale encoder visivo è stato sostituito da un modulo leggero basato su una singola operazione di moltiplicazione matriciale. Per l’audio il cambiamento è ancora più radicale: il segnale grezzo viene proiettato direttamente nello stesso spazio vettoriale dei token testuali, eliminando completamente la necessità di un encoder dedicato.
Gemma 4 12B diventa così il primo modello di fascia intermedia della serie a supportare input audio nativi, consentendo l’elaborazione diretta di contenuti vocali insieme a testo e immagini. Per gli sviluppatori questo apre scenari concreti: assistenti locali, sistemi di trascrizione multimodale, applicazioni di accessibilità e agenti AI capaci di interagire contemporaneamente con contenuti visivi, documenti e sorgenti audio senza ricorrere a modelli separati.
Sul fronte delle prestazioni, Google afferma che Gemma 4 12B si avvicina alla variante 26B Mixture of Experts richiedendo meno della metà della memoria. Il modello integra inoltre il supporto ai Multi-Token Prediction Drafters, una tecnica che consente di prevedere più token futuri durante l’elaborazione, riducendo la latenza percepita senza aumentare il fabbisogno hardware.
Gemma 4 12B viene distribuito con licenza Apache 2.0, una scelta che favorisce l’adozione in ambito professionale e commerciale. I pesi del modello sono disponibili su Hugging Face e Kaggle, con compatibilità garantita per Ollama, llama.cpp, MLX, vLLM, SGLang e Hugging Face Transformers. La famiglia Gemma ha superato i 150 milioni di download complessivi e continua a essere usata in progetti che spaziano dalla robotica ai sistemi di sicurezza aziendale.