AI su Raspberry Pi e CPU: come eseguire modelli da miliardi di parametri senza GPU costose

Business

L’intelligenza artificiale ha visto una crescita esponenziale in termini di dimensione e capacità dei modelli linguistici: oggi i modelli AI più avanzati contano decine o centinaia di miliardi di parametri, i cosiddetti LLM (Large Language Models). Più parametri ci sono, maggiore è la capacità del modello di catturare sfumature linguistiche, relazioni complesse e conoscenze, migliorando la qualità delle risposte generate.

Tradizionalmente, modelli di queste dimensioni richiedono GPU di fascia alta e infrastrutture cloud costose per funzionare in tempo reale. Tuttavia, sta emergendo un interesse crescente per portare l’AI su hardware modesto, come CPU di computer comuni o single-board computer come Raspberry Pi.

Perché portare i modelli AI su hardware modesto e velocizzarne l’esecuzione anche su CPU?

L’interesse nasce da esigenze pratiche e teoriche: eseguire il modello in locale evita di inviare informazioni personali e riservate su server remoti; permette a chiunque di usare modelli avanzati senza investimenti massicci in GPU o cloud; capire come bilanciare memoria, velocità e qualità su hardware limitato aiuta a sviluppare algoritmi più efficienti.

Eseguire modelli grandi su CPU invece che su GPU introduce ulteriori sfide. Le CPU hanno più flessibilità e un ampio set di istruzioni, ma eseguono calcoli paralleli in maniera più limitata rispetto alle GPU, che invece sono progettate per moltiplicazioni matriciali massicce e parallelismo su larga scala. Lo spieghiamo nell’articolo sul perché abbiamo ancora bisogno di CPU se le GPU sono più veloci.

La strategia di ottimizzazione cambia completamente: non basta ridurre la precisione dei pesi per guadagnare velocità; occorre selezionare con cura come ogni tensore del modello è rappresentato in memoria e come viene calcolato.

ByteShape ha affrontato proprio questo problema con il modello Qwen3-30B-A3B-Instruct-2507, dimostrando che un modello da 30 miliardi di parametri può girare in tempo reale su una scheda Raspberry Pi 5, raggiungendo 8 token al secondo senza sacrificare la qualità delle risposte.

Qwen3-30B su Raspberry Pi: ottimizzare le prestazioni bilanciando velocità e qualità

ByteShape ha mostrato come il modello Qwen3-30B-A3B-Instruct-2507 possa girare su una Raspberry Pi 5 con 16 GB di RAM, raggiungendo circa 8 token al secondo (TPS) e mantenendo oltre il 94% della qualità BF16.

Come spiegato dai promotori del progetto, il risultato è figlio di un approccio chiamato ShapeLearn, che seleziona attentamente i tipi di dati per ogni tensore in modo da massimizzare la velocità senza sacrificare la qualità.

L’aspetto cruciale è capire che meno bit per parametro non significa automaticamente più velocità. In alcune GPU, ridurre eccessivamente i bit può perfino rallentare il calcolo a causa di overhead nei kernel e nell’accesso alla memoria. ByteShape dimostra che trattare la memoria come un vincolo, e non come un obiettivo, permette di ottimizzare in maniera concreta il compromesso tra TPS e qualità percepita dall’utente.

Performance su CPU e GPU: il ruolo dei vincoli hardware

Su CPU, la scelta dei bit per peso determina un compromesso prevedibile tra velocità e accuratezza: una volta che il modello entra nella RAM disponibile, ridurre ulteriormente il footprint aumenta generalmente i TPS.

Su GPU, la situazione è più complessa. L’esempio elaborato da ByteShape con una NVIDIA GeForce RTX 5090 mostra come ci sia uno “sweet spot” intorno ai 4 bit per peso: modelli con quantizzazione più aggressiva possono risultare più lenti nonostante il minore consumo di memoria. Ciò è dovuto alle caratteristiche hardware, che rendono alcune configurazioni più efficienti di altre.

Sulla RTX 4080 (16 GB VRAM), ByteShape mantiene la leadership nella combinazione TPS–qualità, soprattutto nei modelli più accurati. La lezione è chiara: ottimizzare la quantizzazione richiede un approccio consapevole, non semplicemente ridurre i bit.

Anyway Systems: portare l’AI fuori dal cloud

Parallelamente, il gruppo di ricerca EPFL (Scuola Politecnica Federale di Losanna, Svizzera) ha sviluppato Anyway Systems, software che permette di eseguire LLM distribuiti su macchine locali, senza mai inviare dati al cloud.

Il sistema sfrutta tecniche di self-stabilization per coordinare risorse hardware distribuite, consentendo di creare cluster scalabili e tolleranti ai guasti. Bastano poche GPU di uso comune per eseguire modelli come GPT-oss-120B, che finora erano considerati accessibili solo tramite costose infrastrutture di data center.

La soluzione proposta dal team di EPFL porta benefici multipli: privacy, sovranità tecnologica e sostenibilità. Infatti, l’80–90% della potenza computazionale richiesta per l’AI oggi serve all’inferenza; spostare questa elaborazione in locale riduce drasticamente la necessità di enormi data center e il loro consumo energetico. Anche se la latenza può leggermente aumentare, la qualità delle risposte rimane invariata.

Limiti percepiti e realtà dei fatti

Alcuni commentatori sottolineano che l’esecuzione di grandi modelli localmente non è una novità: framework open source come llama.cpp permettono di fare inferenza su hardware consumer con RAM sufficiente, anche combinando più macchine in rete. La differenza principale sta nella gestione automatica e robusta della distribuzione dei carichi, che Anyway Systems rende trasparente per l’utente finale.

Mentre soluzioni esistenti richiedono conoscenze tecniche e configurazioni manuali, Anyway Systems propone un modello plug-and-play, che consente a organizzazioni e aziende di scalare senza diventare esperti di infrastrutture.

Le due direzioni presentate nell’articolo — ottimizzazione dei modelli per dispositivi locali e distribuzione di LLM su cluster domestici o aziendali — potrebbero ridefinire la centralità dei data center e il modello di business delle Big Tech. Gli utenti potrebbero presto gestire i propri modelli AI, mantenendo dati personali, riservati e sensibili in locale e scegliendo liberamente come addestrare e aggiornare il modello.

Questo articolo contiene link di affiliazione: acquisti o ordini effettuati tramite tali link permetteranno al nostro sito di ricevere una commissione nel rispetto del codice etico. Le offerte potrebbero subire variazioni di prezzo dopo la pubblicazione.