Il supercomputer più potente mai costruito da Microsoft gira su Ubuntu

Che il supercomputer più potente mai costruito e gestito da Microsoft utilizzi Ubuntu può sembrare, a prima vista, un paradosso. In realtà, è la conferma di una tendenza ormai consolidata nel mondo dell’HPC (High Performance Computing) e del cloud su larga scala: Linux non è un’alternativa, è lo standard di fatto. Dal mese di novembre 2017, il 100% dei sistemi presenti nella classifica Top500 dei supercomputer più potenti al mondo utilizza Linux. Non “quasi tutti”, non “la maggioranza”: tutti.

Non esistono più sistemi AIX, BSD o Unix proprietari nella Top500; le ultime macchine non-Linux sono uscite dalla classifica oltre sette anni fa. In ambito HPC, il sistema operativo non è una piattaforma generalista, ma un substrato minimale, altamente ottimizzato, spesso profondamente personalizzato.

Microsoft e Linux: da nemici a infrastruttura critica

Costruito ormai nel 2023, il supercomputer Eagle di Microsoft Azure è ancora oggi il quinto più potente al mondo.

Per decenni Linux è stato dipinto come l’antagonista diretto di Windows; oggi, invece, è diventato un pilastro fondamentale del modello di business Microsoft, soprattutto nell’era del cloud. Fino all’era Steve Ballmer, Linux era un concorrente da abbattere; con l’insediamento di Satya Nadella al timone di Microsoft (4 febbraio 2014) e gli investimenti su Azure, il pinguino è diventato un partner centrale. “Linux non è una minaccia per Windows“, diceva Bill Gates nel lontano 1999.

Azure genera ricavi enormi rispetto all’intero ecosistema Windows, e questa crescita è trainata in larga parte da workload che girano su Linux: macchine virtuali, container, piattaforme Kubernetes, servizi AI e infrastrutture HPC. Nei data center hyperscale, Linux è la scelta naturale perché garantisce controllo totale dello stack, assenza di costi di licensing per core, massima personalizzabilità e un ecosistema software già pronto per scalare su centinaia di migliaia di nodi. In questo contesto, Windows non scompare, ma cessa di essere centrale: è una delle opzioni per il cliente finale, non il fondamento dell’infrastruttura.

Kernel Linux e WSL

Non a caso Microsoft è oggi uno dei maggiori contributori al kernel Linux, soprattutto nelle aree strategiche per il cloud: networking ad alte prestazioni, virtualizzazione (Hyper-V), gestione della memoria, sicurezza e supporto per hardware avanzato. Citiamo ad esempio il recente impegno dei tecnici Microsoft sullo sviluppo di un driver per la memoria persistente (RAMDAX), destinato al kernel Linux 6.19.

Citiamo anche WSL (Windows Subsystem for Linux), che non nasce come concessione al mondo open source, ma come risposta a una realtà interna: gran parte degli sviluppatori Microsoft lavora quotidianamente con toolchain, compilatori, runtime e workflow nativi Linux. Portare questi flussi su Windows puro era diventato un freno all’innovazione.

Linux non è più il “sistema alternativo” che Microsoft tollera, ma l’infrastruttura invisibile che rende possibile il business cloud. Microsoft non vende Linux come prodotto, ma lo utilizza come moltiplicatore di valore per servizi ad alto margine: calcolo, storage, AI, analytics e HPC. In altre parole, oggi Microsoft fa soldi con Linux, e ne fa molti, perché nel cloud il sistema operativo non è più ciò che si vende, ma ciò che permette di vendere tutto il resto.

Eagle: anatomia tecnica del supercomputer Microsoft NDv5

Il supercomputer Eagle, facente parte dell’infrastruttura Microsoft Azure, rappresenta uno degli esempi più avanzati di integrazione tra HPC tradizionale e cloud hyperscale. Non si tratta di un singolo sistema monolitico, ma di un’architettura progettata per scalare massivamente carichi di lavoro AI, simulazione scientifica e calcolo numerico ad alte prestazioni, sfruttando tecnologie allo stato dell’arte sia sul fronte CPU che GPU.

Basato sull’architettura Microsoft Azure NDv5, Eagle è un sistema HPC cloud-native progettato per operare su scala hyperscale combinando CPU x86 ad alta densità, accelerazione GPU massiva e interconnessione a bassissima latenza.

Dal punto di vista hardware, Eagle integra oltre 2 milioni di core derivati da chip Intel Xeon Platinum 8480C (Sapphire Rapids), ottimizzati per throughput e affidabilità più che per prestazioni single-core. Questa dotazione è abbinata a GPU NVIDIA H100 Hopper, vero fulcro computazionale del sistema per workload AI, deep learning e calcolo numerico accelerato.

L’intero cluster è collegato tramite NVIDIA InfiniBand NDR, una rete essenziale per garantire comunicazioni MPI GPU-aware efficienti e scalabili, senza le quali un sistema di queste dimensioni non potrebbe comportarsi come un’unica macchina logica.

Le prestazioni misurate, pari a 561,20 PFlop/s (Rmax) a fronte di un picco teorico di 846,84 PFlop/s, evidenziano un’elevata efficienza complessiva, considerando gli inevitabili overhead di comunicazione e sincronizzazione su scala estrema.

Lo stack software, basato appunto su Ubuntu 22.04 LTS, compilatore NVIDIA NVCC, librerie cuBLAS 12.2 e MPI NVIDIA HPC-X 2.16, conferma l’approccio GPU-first di Eagle, in cui la CPU svolge un ruolo di orchestrazione mentre la GPU concentra la maggior parte del carico computazionale.

Perché Ubuntu (e non Debian, RHEL o SUSE)?

Sapevate che esiste anche una distribuzione Microsoft Linux? Nel panorama dei supercomputer e dei grandi cluster HPC, Ubuntu non è la distribuzione dominante in senso assoluto. La classifica Top500 mostra una forte presenza di sistemi basati su RHEL e derivate, SUSE Linux Enterprise, HPE Cray OS e numerose distribuzioni Linux profondamente personalizzate.

L’adozione di Ubuntu LTS, come nel caso di Eagle, non è comunque casuale ma il risultato di una serie di vantaggi concreti.

Negli ambienti enterprise e cloud, la stabilità operativa è più importante di qualsiasi altra cosa. Ubuntu offre supporto professionale strutturato, con contratti chiari e tempi di risposta definiti, un elemento essenziale quando si gestiscono infrastrutture con centinaia di migliaia di nodi. A questo si aggiunge un ciclo LTS prevedibile, recentemente esteso fino a 15 anni, che consente di pianificare aggiornamenti e migrazioni su orizzonti pluriennali.

Ecosistema AI e GPU: un vantaggio pratico

Un altro fattore decisivo è l’ecosistema NVIDIA. Gran parte della documentazione ufficiale per CUDA, GPU Hopper, networking Mellanox/InfiniBand e tool HPC è sviluppata e validata innanzitutto su Ubuntu. Questo non significa che altre distribuzioni non siano supportate, ma che Ubuntu riduce attriti, workaround e tempi di integrazione, soprattutto quando si lavora con hardware di ultimissima generazione e stack software complessi orientati a GPU e AI.

Automazione e provisioning su larga scala

La gestione di un supercomputer cloud-native non si limita alle prestazioni: l’automazione è una variabile critica. Strumenti come MAAS (Metal as a Service) rendono Ubuntu particolarmente adatta al provisioning bare-metal, all’installazione unattended e al lifecycle management di cluster su scala hyperscale.

La capacità di riconfigurare rapidamente nodi, reti e ruoli vale quanto – se non più – qualche punto percentuale di prestazioni pure.

Ubuntu, insomma, potrebbe non essere “la migliore distro in assoluto” per l’HPC, ma una delle più adatte quando si combinano supercomputing, cloud hyperscale e accelerazione GPU. Ed è proprio questa combinazione a spiegare perché sistemi come Eagle girino su Ubuntu 22.04.

L’immagine in apertura è di Microsoft