Microsoft inaugura una nuova generazione di datacenter progettati nativamente per l’intelligenza artificiale. Nell’area di Fairwater (Wisconsin, USA), l’azienda guidata da Satya Nadella porta al debutto un nuovo impianto, capace di integrare centinaia di migliaia di GPU NVIDIA Blackwell (GB200 e GB300) in un’unica architettura coerente.
L’obiettivo non è semplicemente aumentare la potenza di calcolo, ma ridefinire il concetto stesso di datacenter, passando da un paradigma “cloud-centric” a uno AI-native, dove l’intero stack – dall’alimentazione elettrica alla topologia di rete – è progettato per sostenere carichi di lavoro di addestramento e inferenza su scala globale.
Architettura Fairwater: un datacenter progettato per l’intelligenza artificiale
Tradizionalmente, i datacenter cloud sono ottimizzati per la virtualizzazione e l’erogazione di servizi multipli e distribuiti. Il nuovo sito di Fairwater, invece, nasce come un supercomputer AI distribuito. L’architettura si basa su tre pilastri fondamentali:
- Flat Fabric Networking: un’unica rete di comunicazione a bassa latenza e altissima ampiezza di banda, che unisce ogni GPU a tutte le altre in un cluster.
- High-Density Compute: densità di potenza e calcolo senza precedenti, con rack da oltre 140 kW e fino a 72 GPU Blackwell collegate in NVLink.
- Sostenibilità ed efficienza Termica: un sistema di raffreddamento a liquido a ciclo chiuso, senza evaporazione, progettato per oltre 6 anni di autonomia.
Il nuovo data center AI è collegato con l’altro sito già eretto in precedenza a Fairwater e con l’intera rete globale Azure, costituendo un’infrastruttura interconnessa.

Rete Flat e interconnessione a bassa latenza
Al centro del design del nuovo sito di Fairwater c’è la rete flat, una topologia che elimina i livelli gerarchici tradizionali per ottenere una singola fabric omogenea. Microsoft spiega che quest’approccio riduce il numero di hop tra GPU, migliora la latenza e aumenta la banda aggregata disponibile per le operazioni collettive.
Ogni rack ospita fino a 72 GPU NVIDIA Blackwell, interconnesse tramite NVLink e switch NVSwitch per comunicazioni intra-rack a bassa latenza (< 0,5 µs). I rack sono poi connessi tramite una dorsale Ethernet 800 Gbps GPU-to-GPU su doppio livello, gestita da SONiC, il sistema operativo open network di Microsoft. L’uso di SONiC consente di operare su hardware “ad hoc” congegnato dagli ingegneri Microsoft, evitando situazioni di lock-in con vendor proprietari e riducendo i costi di scala.
Ottimizzazioni di rete avanzate
La rete è ottimizzata per workload AI attraverso tre tecnologie chiave:
- Packet trimming: riduzione dinamica dell’overhead nei pacchetti per ottimizzare i trasferimenti tra GPU in operazioni ad altissima frequenza.
- Packet spray: bilanciamento distribuito dei pacchetti su più percorsi per evitare fenomeni di congestione.
- High-frequency telemetry: monitoraggio in tempo reale dei flussi di rete con risposte automatiche volte al routing adattivo.
Il risultato è una rete convergente AI-aware, in grado di reagire dinamicamente alle caratteristiche degli specifici workload.
Densità computazionale e raffreddamento a liquido
La latenza tra GPU adiacenti e la propagazione del segnale diventano vincoli critici in cluster con milioni di core paralleli. Per minimizzare questi ritardi, Microsoft ha adottato una configurazione che distribuisce i rack su due livelli verticali e connettività ottica ottimizzata per avere lunghezze di cavo minime. La disposizione dei rack riduce la distanza media tra GPU, migliorando la coerenza temporale e la sincronizzazione di rete nelle operazioni di addestramento distribuito.
Raffreddamento a ciclo chiuso
Il raffreddamento è interamente a liquido diretto (DLC – Direct Liquid Cooling), con un impianto a circuito chiuso che riutilizza la stessa acqua per anni, senza evaporazione. Il volume iniziale di riempimento equivale al consumo annuale di circa 20 abitazioni e non necessita di reintegro se non dopo 6 anni, in base ai controlli chimici.
Ogni rack dissipa circa 140 kW, e ogni fila raggiunge 1,36 MW di potenza termica gestita. Il sistema sfrutta cold plates a contatto diretto con le GPU e un sistema centralizzato di raffreddamento industriale che produce acqua refrigerata per assorbire e dissipare il calore generato. È tra i più grandi mai realizzati e garantisce temperature operative stabili anche a pieno carico.

Il vantaggio non è solo termico: la stabilità termodinamica permette una maggiore utilizzazione media delle GPU, riducendo la necessità di throttling termico e migliorando la costanza delle performance nelle attività di training AI di lunga durata.
Alimentazione ad alta disponibilità e basso costo
Il sito nello Stato del Wisconsin è stato selezionato per la resilienza della rete elettrica locale: può garantire disponibilità 99,99% a costi contenuti. Microsoft ha sviluppato soluzioni avanzate di gestione energetica per stabilizzare le oscillazioni di potenza dei carichi AI e sistemi di accumulo energetico on-site. Queste strategie permettono di evitare sistemi di generazione locale o UPS tradizionali, riducendo costi e complessità.
L’infrastruttura AI WAN: supercalcolo planetario
Con la sola crescita delle dimensioni dei modelli, un singolo datacenter non è più sufficiente. Fairwater è progettato per essere parte di una AI WAN ottica dedicata, una dorsale ad altissima capacità che collega fisicamente tutti i siti AI di Azure su scala continentale e globale.
Soltanto nel 2024, Microsoft ha posato oltre 120.000 miglia di fibra ottica negli USA, creando una rete ottica a bassa latenza che collega i cluster Fairwater, le GPU legacy e le infrastrutture di calcolo esistenti.
La dorsale così allestita permette la distribuzione dinamica dei carichi AI tra datacenter diversi; la segmentazione dei flussi (pre-training, inference, synthetic generation); l’orchestrazione coordinata di risorse eterogenee (CPU, GPU, TPU, FPGA) su scala geografica.
In termini pratici, significa che un’operazione di addestramento AI può iniziare in Wisconsin, estendersi su nodi in Georgia e continuare in un altro sito Azure, tutto in modo trasparente e gestito lato software come se si avesse a che fare con un unico grande data center.
Credit: le foto pubblicate nell’articolo sono di Microsoft.