L’accelerazione delle infrastrutture per l’intelligenza artificiale richiede piattaforme integrate in grado di sostenere carichi di lavoro sempre più intensivi e distribuiti. Nvidia ha avviato la consegna dei primi campioni della piattaforma Vera Rubin a clienti selezionati, segnando una fase di transizione verso una nuova generazione di data center AI.
Il contesto industriale è segnato da investimenti miliardari dei principali cloud provider e hyperscaler, con una domanda di potenza di calcolo e banda di interconnessione che cresce a ritmi serrati. Dopo il ciclo di architetture Ampere, Hopper e Blackwell, la roadmap Nvidia prosegue con Vera Rubin, prevista per la produzione nella seconda metà del 2026 o nei primi mesi del 2027, con specifiche ormai definite e in fase di validazione.
Architettura Vera Rubin e componenti chiave
La piattaforma Vera Rubin rappresenta un sistema completo per il calcolo AI su larga scala, progettato per integrare CPU, GPU e networking ad altissima velocità in un unico stack.
Al centro dell’architettura si trova la Vera CPU a 88 core, abbinata alla nuova Rubin GPU dotata di 288 GB di memoria HBM4, concepita per gestire modelli di deep learning di dimensioni estremamente elevate. Accanto a questa configurazione è prevista la variante Rubin CPX, equipaggiata con 128 GB di GDDR7, più adatta a carichi di inferenza o training meno intensivi ma comunque ad alta parallelizzazione.
La piattaforma introduce anche un’evoluzione significativa nella connettività interna grazie allo switch NVLink 6.0, che abilita una comunicazione a bassa latenza tra GPU in configurazioni rack-scale.
A livello di rete, Vera Rubin integra le interfacce Spectrum-6 Photonics Ethernet e Quantum-CX9 InfiniBand a 1,6 Tbps, entrambe basate su tecnologia fotonica per aumentare la densità di banda e ridurre i consumi energetici.
L’intero sistema si basa su BlueField-4 DPU, una unità di elaborazione dati dotata di un SSD integrato utilizzato per gestire cache key-value, una struttura che associa chiavi e valori per recuperare rapidamente le informazioni, essenziale per velocizzare i flussi di inferenza, ossia la fase in cui i modelli generativi elaborano i dati e producono risultati.
Sampling, validazione e roadmap produttiva
La distribuzione dei primi campioni di Vera Rubin indica che le specifiche di prestazioni e consumo energetico sono ormai congelate.
I partner selezionati da Nvidia stanno ricevendo componenti differenziati per avviare le fasi di qualificazione hardware e software, mentre alcuni integratori ottengono direttamente rack completi NVL72 VR200 già assemblati. La produzione su larga scala è pianificata per la seconda metà del 2026, con la possibilità di slittare all’inizio del 2027 in funzione dei tempi di validazione dei clienti.
Il processo di validazione coinvolge sia gli hyperscaler sia i costruttori di server AI, che devono adeguare firmware, stack software e sistemi di orchestrazione.
La complessità di queste piattaforme richiede una verifica approfondita delle prestazioni su carichi reali, oltre a test di resilienza e gestione termica. La fase di sampling consente inoltre di valutare eventuali ottimizzazioni marginali, sebbene l’architettura sia ormai stabilizzata.
Design L10 e integrazione rack-scale
Secondo le indicazioni emerse, Nvidia intende fornire ai partner unità di calcolo VR200 in configurazione Level-10 completamente assemblata. In questo modello, CPU Vera, GPU Rubin, sistemi di raffreddamento e interfacce di rete sono già integrati in un design modulare senza cablaggi interni tradizionali. Tale approccio riduce drasticamente la libertà progettuale dei produttori, ma garantisce uniformità, prestazioni prevedibili e tempi di deployment ridotti.
Implicazioni per hyperscaler e fornitori di servizi AI
L’introduzione della piattaforma Vera Rubin avviene in un momento di forte competizione tra fornitori di acceleratori AI. Nvidia punta a consolidare la propria posizione nei confronti di alternative come le soluzioni AMD Instinct, offrendo un’integrazione verticale che include calcolo, networking e storage accelerato.
L’obiettivo dichiarato è rendere Vera Rubin lo standard di riferimento per la costruzione di modelli di grandi dimensioni (LLM) da parte dei principali cloud provider.
Per gli hyperscaler, l’adozione di Vera Rubin comporta l’aggiornamento delle infrastrutture di rete e delle pipeline software per sfruttare appieno la maggiore banda e la latenza ridotta offerte dalle tecnologie fotoniche. Inoltre, la presenza di DPU con storage integrato consente di ridurre il carico sui sistemi di storage centrali e migliorare la scalabilità delle applicazioni AI distribuite.
Va detto che l’adozione di memoria HBM4 e interconnessioni fotoniche richiede processi produttivi avanzati e supply chain altamente specializzate, con possibili colli di bottiglia nella produzione iniziale. Inoltre, la crescente complessità dei sistemi rack-scale implica la necessità di strumenti di gestione e monitoraggio sempre più sofisticati.