CanIRun.ai: scopri subito quali modelli AI girano davvero sul tuo PC

Howto

Capire se un computer è in grado di eseguire modelli AI in locale non è sempre immediato. La diffusione di modelli open source di grandi dimensioni, insieme alla crescente disponibilità di software come Ollama o LM Studio, ha reso l’AI locale un’opzione concreta per sviluppatori, ricercatori e appassionati. Rimane però una domanda pratica: quali modelli funzioneranno davvero sul proprio hardware?

Una risposta rapida arriva da CanIRun.ai, un sito Web progettato per analizzare automaticamente la configurazione del sistema in uso e indicare quali modelli AI possono essere eseguiti in locale. Lo strumento nasce in un momento in cui il panorama dell’AI è dominato da servizi cloud come ChatGPT o Gemini, ma una parte crescente degli utenti preferisce mantenere i modelli sul proprio dispositivo per ragioni di privacy, assenza di limiti di utilizzo e possibilità di lavorare offline. Il numero di modelli disponibili è ormai molto elevato (tanto che è anche facile perdersi…); inoltre, ci sono varianti con dimensioni che vanno da meno di un miliardo di parametri fino a centinaia di miliardi, con requisiti hardware radicalmente diversi.

Come CanIRun.ai analizza l’hardware del computer

Valutare la compatibilità tra modelli e hardware richiede una certa esperienza tecnica. GPU, quantità di memoria video, RAM di sistema e architettura del processore influenzano direttamente la velocità e la fattibilità dell’inferenza. CanIRun.ai tenta di semplificare questo processo trasformando l’analisi hardware in un’interfaccia accessibile anche a chi non ha familiarità con benchmark e parametri di inferenza (le impostazioni e i valori che controllano il modo in cui il sistema genera le risposte quando elabora nuovi dati dopo l’addestramento iniziale).

Quando si apre il sito di CanIRun.ai, l’applicazione Web interroga il browser per raccogliere automaticamente una serie di informazioni sull’hardware del dispositivo.

Il processo sfrutta tecnologie moderne come la WebGPU API, progettata per consentire alle applicazioni Web di accedere direttamente alla GPU per operazioni di calcolo ad alte prestazioni. Attraverso questa API e altri meccanismi di rilevamento, il sito identifica componenti fondamentali come GPU, CPU e memoria disponibile.

Il funzionamento è simile a quello di strumenti di benchmark integrati nelle applicazioni desktop, ma avviene direttamente nel browser. WebGPU espone funzionalità di calcolo parallelo pensate per operazioni matematiche intensive come moltiplicazioni di matrici e operazioni su tensori, elementi fondamentali nei modelli di machine learning. Grazie a questo accesso diretto alla GPU, CanIRun.ai può stimare la capacità computazionale del sistema e confrontarla con i requisiti di vari modelli AI.

Il sistema utilizza una scala di valutazione che va da 100 a 0. Il livello 100 indica che il modello dovrebbe funzionare in modo fluido sulla configurazione hardware in uso. A scendere, ci sono tanti livelli che indicano prestazioni accettabili, limitate o mediocri.

Il peso dei parametri: perché alcuni modelli richiedono GPU potenti

Il fattore più evidente che determina la compatibilità è la dimensione del modello.

Molti LLM (Large Language Models) sono classificati in base al numero di parametri. Modelli come Llama 3.1 8B o Qwen 3.5 9B appartengono alla fascia media e possono essere eseguiti su diverse GPU consumer moderne. In sistemi dotati di schede grafiche come GeForce RTX 5070Ti, CanIRun.ai indica che questi modelli AI possono funzionare con prestazioni fluide.

La situazione cambia radicalmente con modelli molto più grandi. Architetture come Llama 3.3 70B o gpt-oss 120B richiedono quantità di memoria video e potenza di calcolo significativamente superiori. Senza GPU di fascia estremamente alta o sistemi multi-GPU, l’esecuzione diventa impraticabile.

La difficoltà principale riguarda la quantità di memoria richiesta per conservare i pesi del modello, cioè i parametri numerici appresi durante l’addestramento, e per gestire le strutture temporanee utilizzate mentre il modello genera una risposta, come la KV cache (Key-Value cache), un meccanismo che memorizza le rappresentazioni interne dei token già elaborati per evitare di ricalcolarle e rendere l’inferenza più efficiente.

Computer portatili privi di GPU dedicata mostrano limiti ancora più evidenti. In queste configurazioni i modelli di fascia media e alta risultano generalmente troppo pesanti, mentre modelli compatti con pochi miliardi di parametri possono comunque funzionare in modo accettabile.

Confronto tra GPU e previsione delle prestazioni

Una funzione particolarmente interessante di CanIRun.ai riguarda il confronto tra GPU.

La piattaforma include infatti una pagina dedicata in cui è possibile confrontare le prestazioni della propria scheda grafica con altri modelli presenti sul mercato.

Per impostazione predefinita, il sistema mostra un confronto con GPU di fascia alta come Apple M5 Max dotata di 36 GB di memoria unificata. L’utente può comunque selezionare qualsiasi GPU disponibile nel database e simulare scenari di aggiornamento hardware.

Se, ad esempio, si confronta una GeForce RTX 5070Ti con una GeForce RTX 5090 dotata di 32 GB di VRAM, il sito mostra non solo la compatibilità dei modelli ma anche una stima della velocità di generazione espressa in token al secondo. In molte configurazioni la GPU più potente riesce a raddoppiare la velocità di inferenza rispetto al modello precedente.

La differenza diventa ancora più evidente con modelli di grandi dimensioni. Configurazioni che risultano troppo lente o impraticabili su GPU di fascia media diventano utilizzabili su hardware con maggiore memoria e throughput di calcolo.

Il ruolo crescente dell’AI locale

L’interesse verso l’esecuzione locale dei modelli non dipende solo dalle prestazioni. Molti utenti preferiscono questa soluzione per evitare costi ricorrenti delle API cloud o per mantenere i dati personali e informazioni riservate sui propri dispositivi. L’esecuzione locale elimina inoltre la latenza di rete e permette di utilizzare applicazioni AI anche in assenza di connessione Internet.

Con la continua riduzione delle dimensioni dei modelli e l’aumento delle capacità hardware delle GPU consumer, la distanza tra AI locale e servizi cloud continua a ridursi. Strumenti di analisi come CanIRun.ai offrono un modo immediato per capire fino a dove può spingersi il proprio sistema prima ancora di scaricare un modello e “darlo in pasto” a un runner come Ollama o LM Studio.

Questo articolo contiene link di affiliazione: acquisti o ordini effettuati tramite tali link permetteranno al nostro sito di ricevere una commissione nel rispetto del codice etico. Le offerte potrebbero subire variazioni di prezzo dopo la pubblicazione.