Nel mondo dell’AI e del calcolo ad alte prestazioni, la potenza hardware e la velocità di accesso alla memoria sono fondamentali. Con l’arrivo dei Mac Studio M3 Ultra e il supporto a RDMA su Thunderbolt 5 in macOS 26.2, Apple entra finalmente nel campo del clustering locale per modelli di intelligenza artificiale, offrendo prestazioni impressionanti in un form factor compatto e silenzioso.
Con la collaborazione di Apple, Jeff Geerling, noto sviluppatore di software, autore, divulgatore tecnico e content creator molto conosciuto nella comunità open source e nel mondo DevOps, ha trasformato una batteria di sistemi Mac Studio in un vero e proprio supercomputer desktop. Grazie a Exo 1.0, uno strumento open source per la gestione di cluster AI che sfrutta appieno la memoria unificata dei Mac e la bassa latenza del nuovo protocollo RDMA, Geerling ha esaminato il potenziale della tecnologia, dal punto di vista sia pratico che tecnico.
Il cluster Mac Studio: configurazione e costi
Il setup testato comprendeva quattro Mac Studio con configurazioni differenti:
- Due M3 Ultra con 512 GB di memoria unificata e 32 core CPU, costo: 11.699$ ciascuno.
- Due M3 Ultra con 256 GB di memoria unificata, costo: 8.099$ ciascuno.
In totale, la configurazione con 1,5 TB di memoria unificata costerebbe circa 40.000$. Apple ha fornito i Mac in comodato d’uso per i test, mentre DeskPi ha fornito un rack mini da 4 postazioni per il posizionamento del cluster.
L’adozione di Mac Studio per il clustering HPC segna un ritorno interessante dopo Xserve e Xgrid, soluzioni Apple degli anni 2000 che non ebbero grande successo, ma che oggi trovano nuova vita grazie alla potenza dei chip Apple Silicon e alla gestione avanzata della memoria.
Con prestazioni elevate (50–60 Gbps reali), ma senza switch Thunderbolt 5 disponibili, ogni Mac deve essere connesso agli altri singolarmente.
Benchmark e prestazioni: CPU, FP64 e AI locale
Il Mac Studio M3 Ultra si conferma una macchina sorprendentemente potente, non solo per applicazioni creative, ma anche per compiti di calcolo ad alte prestazioni. Nei test Geekbench 6, M3 Ultra supera sistemi come DGX Spark di Nvidia e AI Max+ 395 di AMD, sia in modalità single-core che multi-core, evidenziando l’efficacia dei SoC Apple Silicon anche rispetto a soluzioni HPC dedicate.
Sul fronte del calcolo double-precision (FP64), M3 Ultra è stato il primo desktop testato a superare 1 Tflop FP64 nei benchmark HPL, quasi il doppio rispetto a Nvidia GB10, mantenendo un consumo in idle inferiore a 10 W.
L’inferenza AI locale è altrettanto impressionante. Con llama.cpp e Exo 1.0, modelli di piccole dimensioni come LLaMA 3B e modelli più complessi come LLaMA 70B girano senza problemi su un singolo Mac Studio.
Per modelli giganteschi come Kimi K2 Thinking (1 trilione di parametri, 32 miliardi attivi) è necessario distribuire il carico su più nodi: con RDMA e Exo 1.0 si ottengono prestazioni di circa 30 tokens/sec, grazie alla drastica riduzione della latenza di accesso alla memoria condivisa, da ~300μs a meno di 50μs.
Il confronto tra reti mostra chiaramente l’impatto della tecnologia: Ethernet 2,5 Gbps è sufficiente per test di base, ma presenta latenza più alta e instabilità sotto carico pesante. Thunderbolt 5 senza RDMA migliora le prestazioni, ma può risultare instabile nei trasferimenti HPL. L’attivazione di RDMA via Thunderbolt 5 con Exo 1.0 garantisce stabilità, supporto multi-nodo e scaling quasi lineare fino a quattro Mac Studio.
Limiti attuali e prospettive future del clustering su Mac
Non mancano però alcune criticità. macOS non consente aggiornamenti di sistema via SSH, rendendo necessario l’accesso GUI o strumenti MDM. La limitata scalabilità di Thunderbolt 5 rispetto a soluzioni QSFP dedicate, insieme alla natura ancora sperimentale di RDMA, comporta problemi di stabilità occasionali. Inoltre, la gestione di un cluster Mac è più complessa rispetto a Linux, anche se strumenti come Ansible aiutano ad automatizzare operazioni ripetitive.
Guardando al futuro, emergono diverse domande: quando arriverà un ipotetico M5 Ultra e quale impatto avrà sulle prestazioni AI? Un Mac Pro progettato per HPC potrebbe fornire maggiore banda PCIe per clustering avanzato. SMB Direct potrebbe migliorare ulteriormente l’accesso a file condivisi a bassa latenza, mentre altri software AI come llama.cpp potrebbero beneficiare di un supporto RDMA più esteso, ampliando l’ecosistema dei cluster Apple Silicon.
L’immagine in apertura è di Jeff Geerling