Un report di Morgan Stanley segnala un cambio di paradigma nell’industria dei semiconduttori: nei sistemi avanzati di Intelligenza Artificiale, il vero collo di bottiglia non sono più le GPU, ma la memoria RAM ad alte prestazioni che le alimenta.
Entro il 2027, secondo le stime degli analisti, il costo della memoria HBM potrebbe arrivare a rappresentare fino al 40% del valore complessivo dell’hardware AI. Una proporzione che sta già influenzando disponibilità delle GPU, tempi di consegna e pianificazione dei grandi operatori cloud a livello globale.
Cos’è la memoria HBM e perché è diventata insostituibile
HBM sta per High Bandwidth Memory: moduli DRAM impilati verticalmente e collegati tramite interconnessioni ad altissima velocità, chiamate Through-Silicon Via. Questa architettura consente larghezze di banda enormemente superiori rispetto alla memoria tradizionale, ed è diventata indispensabile perché i moderni modelli linguistici richiedono accesso continuo e rapidissimo a parametri, tensori e cache temporanee durante l’addestramento.
Il problema è semplice: se il flusso dati tra memoria e processore non è abbastanza rapido, migliaia di core restano inattivi in attesa delle informazioni necessarie. Nei sistemi più recenti come le GPU NVIDIA Blackwell e Hopper, la larghezza di banda supera diversi terabyte al secondo. Per ottenerla, GPU e memoria vengono integrate su un unico substrato tramite tecnologie di packaging avanzato come CoWoS, sviluppata da TSMC.
Ed è proprio qui che si concentra il vero vincolo industriale. Produrre GPU AI non significa soltanto fabbricare chip con nodi litografici a 3 o 4 nanometri: servono linee dedicate per la memoria HBM e capacità di assemblaggio estremamente sofisticate. TSMC fatica già oggi a soddisfare la domanda di packaging CoWoS, da cui NVIDIA dipende fortemente per assemblare i suoi acceleratori H100, H200 e Blackwell B200. SK hynix domina intanto il mercato della memoria HBM ad alte prestazioni, con Samsung che insegue aumentando rapidamente investimenti e produzione.
Perché il problema potrebbe peggiorare, e cosa significa per l’industria
I modelli AI continuano a crescere in dimensioni, lunghezza del contesto e capacità multimodali. Ogni incremento richiede più memoria e banda passante superiore. NVIDIA H200 integra già fino a 141 GB di HBM3E; le generazioni Blackwell superano ulteriormente questa soglia.
Addestrare modelli con centinaia di miliardi di parametri richiede cluster composti da migliaia di acceleratori, con costi finali che includono rack specializzati, raffreddamento liquido e infrastrutture di rete ad altissima velocità.
Gli stack DRAM impilati verticalmente producono inoltre densità energetiche elevate, complicando la dissipazione del calore e limitando ulteriormente rese produttive e capacità industriale. La memoria HBM4, standard attualmente in sviluppo, potrebbe amplificare queste tensioni nella prossima generazione di sistemi.
Per operatori cloud come Microsoft Azure, Google Cloud, Amazon Web Services e Oracle, ogni ritardo nella disponibilità della memoria HBM si traduce direttamente in rallentamenti nell’implementazione di nuovi cluster AI. Il report suggerisce che la competizione nel settore dipenderà sempre meno dal semplice accesso ai chip e sempre più dal controllo dell’intera supply chain della memoria avanzata.
Per anni il vantaggio competitivo nell’industria dei semiconduttori si misurava in nanometri; oggi si misura in terabyte al secondo.