L’esecuzione locale dei modelli linguistici (LLM, Large Language Models) ha seguito un percorso ben preciso: dalle prime implementazioni che poggiavano sulla CPU, fino all’integrazione con GPU discrete e acceleratori dedicati. I dispositivi basati su chip Apple Silicon hanno rappresentato una categoria a parte, distinguendosi per la memoria unificata e la stretta integrazione hardware-software.
L’annuncio dell’integrazione tra Ollama e MLX, il framework di machine learning Apple, segna un punto di svolta tecnico concreto: per la prima volta un runtime diffuso per LLM sfrutta in modo nativo il framework Apple progettato per il calcolo tensoriale locale.
I primi risultati mostrano incrementi significativi, con valori che superano circa 1800 token al secondo nella fase di prefill (ovvero il momento iniziale in cui il modello analizza e codifica il testo di input) su hardware di ultima generazione.
Ollama e il ruolo del runtime locale per LLM
Ollama nasce con un obiettivo chiaro: semplificare l’esecuzione di modelli linguistici direttamente su macchine locali, senza dipendenze da servizi cloud.
Come abbiamo spiegato nella guida a Ollama, il progetto offre una CLI (command-line interface), un’API HTTP locale e un sistema di gestione dei modelli che ricorda quello dei container. L’utente scarica un modello e lo esegue con un singolo comando, mantenendo il controllo sui dati e sulla configurazione.
Nel tempo, il limite principale di questa architettura non è stato tanto funzionale quanto prestazionale. Le versioni precedenti, come Ollama 0.18, utilizzavano backend meno ottimizzati per Apple Silicon, con throughput e latenza inferiori rispetto ad altre soluzioni. L’integrazione con MLX affronta proprio questo collo di bottiglia.
MLX: il framework Apple per il calcolo tensoriale
MLX è un framework sviluppato da Apple che consente di eseguire operazioni di machine learning, cioè algoritmi capaci di apprendere dai dati, direttamente sull’hardware dei dispositivi con chip Apple Silicon, sfruttando CPU, GPU e Neural Engine (un’unità dedicata all’intelligenza artificiale).
La sua caratteristica principale è l’uso della memoria unificata, un sistema in cui CPU e GPU accedono allo stesso spazio di memoria senza dover copiare i dati tra loro, riducendo così i tempi di attesa (latenza) e migliorando l’efficienza complessiva.
Dal punto di vista tecnico, MLX mette a disposizione operazioni di base ottimizzate per la manipolazione di tensori (strutture dati multidimensionali usate per rappresentare numeri e matrici), supporta l’esecuzione eager (cioè esegue le istruzioni immediatamente, senza compilazione preventiva) e permette di utilizzare direttamente la GPU, evitando livelli intermedi di compatibilità come Metal Performance Shaders, un framework di Apple per l’accelerazione grafica e computazionale.
La scelta riduce il sovraccarico computazionale e aumenta l’efficienza nelle operazioni tipiche dei LLM.
Integrazione MLX in Ollama: cosa cambia in concreto
Con la versione di anteprima basata su MLX, Ollama abbandona parte della sua precedente infrastruttura di inferenza per appoggiarsi direttamente al framework Apple. Il risultato è un miglior utilizzo delle risorse hardware: GPU e acceleratori neurali entrano in gioco non solo durante la generazione dei token, ma anche nella fase iniziale di elaborazione del prompt.
I dati pubblicati mostrano due miglioramenti chiave: la riduzione del time to first token e l’aumento dei token generati al secondo. Su chip come M5, M5 Pro e M5 Max, Ollama sfrutta acceleratori neurali GPU-specifici che intervengono nelle operazioni di inferenza, riducendo la latenza percepita nelle applicazioni interattive.
Un esempio concreto: nella fase di prefill, il passaggio da circa 1154 token/s a oltre 1800 token/s evidenzia un salto netto nella capacità di elaborare prompt lunghi. Anche la fase di decoding migliora sensibilmente, passando da circa 58 token/s a oltre 110 token/s nelle stesse condizioni di test.
Quantizzazione avanzata e formato NVFP4
Un elemento meno evidente ma altrettanto rilevante riguarda il supporto al formato NVFP4. Si tratta di una tecnica di quantizzazione a 4 bit progettata per mantenere una buona accuratezza riducendo l’uso di memoria e banda.
NVFP4 permette di avvicinare il comportamento del modello a quello osservato in ambienti di produzione su GPU NVIDIA. Tale allineamento ha un impatto diretto su due aspetti: la qualità delle risposte e la prevedibilità delle prestazioni tra ambienti locali e infrastrutture server.
La disponibilità di NVFP4 in Ollama consente di eseguire modelli complessi, come Qwen3.5-35B, con un footprint più contenuto, rendendo possibile l’uso su macchine consumer senza sacrificare troppo la qualità dell’output.
Implicazioni per agenti AI e sviluppo locale
L’incremento prestazionale non è un semplice miglioramento numerico: abilita scenari d’uso prima difficili da gestire localmente. Assistenti personali come OpenClaw (da configurare con la massima attenzione) e agenti di coding come Claude Code o Codex beneficiano direttamente della riduzione della latenza.
Nonostante i miglioramenti, l’approccio resta comunque legato all’hardware Apple. Le ottimizzazioni MLX non si trasferiscono su altre piattaforme; inoltre, le prestazioni assolute restano inferiori rispetto a cluster GPU NVIDIA con framework come vLLM, soprattutto per modelli di grandi dimensioni o carichi concorrenti elevati. Tuttavia, la distanza si riduce progressivamente grazie all’ottimizzazione software e all’evoluzione dei chip Apple.
L’integrazione tra Ollama e MLX dimostra comunque come l’ottimizzazione verticale, dal silicio al runtime, possa cambiare radicalmente l’esperienza d’uso degli LLM. Non si tratta solo di velocità: si tratta di rendere sostenibile e pratico l’uso quotidiano di modelli avanzati direttamente sul proprio dispositivo.