Ollama è una piattaforma nata con l’obiettivo di rendere l’esecuzione di modelli di intelligenza artificiale open source semplice, accessibile e integrata nell’esperienza desktop. Dalla sua introduzione, ha puntato su un modello di utilizzo locale, consentendo a sviluppatori, ricercatori e aziende di eseguire LLM (Large Language Models) direttamente su macchine macOS, Windows e Linux, tramite un’app grafica, una CLI (Command Line Interface) e API dedicate.
La filosofia “AI on your machine” ha risposto a due esigenze fondamentali:
- Controllo e privacy: eseguendo i modelli in locale, gli utenti mantengono la piena proprietà e il controllo dei propri dati.
- Semplicità d’integrazione: grazie a un’interfaccia coerente tra applicazione, riga di comando e API, Ollama ha reso più facile incorporare modelli open source nei flussi di lavoro esistenti.
Cos’è Ollama Turbo e a cosa serve
In un altro articolo abbiamo visto come installare e usare Ollama sul PC e abbiamo spiegato quanto l’applicazione sia diventata adesso abile nello sbloccare le potenzialità dei modelli multimodali aprendo alla lettura del contenuto di immagini e video.
Proprio con l’arrivo di modelli sempre più grandi – spesso impossibili da gestire al meglio avvalendosi di GPU consumer – Ollama ha dovuto affrontare una sfida: come garantire le stesse garanzie di privacy e usabilità, offrendo una potenza di calcolo di livello enterprise.
Da questa necessità che nasce Ollama Turbo, un’infrastruttura cloud specializzata che permette di eseguire modelli linguistici e generativi di grandi dimensioni senza sovraccaricare le risorse locali.
Il principio alla base è semplice: spostare l’elaborazione dal computer dell’utente a un’infrastruttura ad alte prestazioni consentendo:
- Inferenza più rapida: riduzione significativa dei tempi di risposta grazie all’uso di GPU di fascia enterprise e interconnessioni ad alta velocità.
- Esecuzione di modelli più grandi: compatibilità con architetture che normalmente non potrebbero essere caricate su GPU consumer, come quelle con decine o centinaia di miliardi di parametri.
- Risparmio energetico e minore usura hardware: l’elaborazione remota libera CPU e GPU locali, lasciando risorse disponibili per altre applicazioni e migliorando l’efficienza energetica.
Modelli attualmente disponibili
Nella fase di anteprima (Turbo Preview), Ollama mette a disposizione due modelli di grandi dimensioni:
- gpt-oss-20b: progettato per un compromesso ottimale tra velocità e capacità di ragionamento.
- gpt-oss-120b: un modello di fascia alta, capace di output complessi e approfonditi, ma con requisiti di calcolo molto elevati.
Non è un caso che Ollama Turbo sia annunciato proprio oggi. I due modelli citati, infatti, sono i modelli AI open source presentati da OpenAI. La selezione iniziale suggerisce un approccio graduale, volto a validare la stabilità e la scalabilità dell’infrastruttura prima di ampliare il catalogo dei modelli.
Turbo non è un servizio isolato, ma si integra pienamente con l’intero ecosistema Ollama. Quindi app desktop, recentemente rinnovata, CLI, API e librerie JavaScript/Python. L’interoperabilità consente agli sviluppatori di passare dalla modalità locale a quella Turbo, senza modificare in modo sostanziale il codice o l’ambiente di lavoro.
Aspetti tecnici e limiti operativi
Per garantire un’esperienza stabile e prevenire colli di bottiglia di capacità, Turbo prevede limiti orari e giornalieri di utilizzo.
In futuro, Ollama prevede di introdurre un modello di tariffazione a consumo, che consentirà di pagare in base alle risorse effettivamente utilizzate, con maggiore flessibilità per progetti di diversa scala.
Dal punto di vista tecnico, tuttavia, la collocazione dei server esclusivamente negli USA potrebbe avere impatti rilevanti in termini di latenza di rete per gli utenti europei e conformità normativa, in particolare per le aziende soggette a regolamenti come GDPR o altre leggi locali sulla protezione dei dati.
Ollama assicura comunque che nessuna query o interazione è registrata o conservata. Inoltre, i dati sono sempre elaborati in tempo reale e non archiviati.