Accordo Intel-Google: le CPU tornano protagoniste nell'era dell'AI

Intel prosegue imperterrita nella sua parabola ascendente. Dopo una serie di mosse di mercato particolarmente azzeccate, l’azienda di Santa Clara guidata da Lip-Bu Tan mette a segno un’importante collaborazione con Google incentrata sull’AI.

Il 9 aprile 2026, le due società hanno infatti annunciato pubblicamente un accordo pluriennale che punta a rafforzare il ruolo delle CPU Intel Xeon nei data center AI e a integrare nuove unità di elaborazione dedicate alla gestione dell’infrastruttura. Il dato più rilevante riguarda proprio il cambio di prospettiva: la crescita dei carichi di inferenza, oggi predominanti rispetto alle attività di addestramento, riporta al centro i chip general-purpose, con implicazioni dirette su architetture, consumi e progettazione dei sistemi distribuiti.

La relazione tra le due aziende non nasce oggi. Google utilizza processori Intel da quasi 20 anni all’interno della propria infrastruttura cloud; negli ultimi cicli hardware, l’adozione di Intel Xeon 6 nelle istanze C4 e N4 ha confermato una continuità tecnica che ora evolve verso un’integrazione più profonda tra componenti eterogenei.

CPU e AI: ritorno al centro della progettazione

Una convinzione diffusa negli anni recenti attribuiva agli acceleratori – GPU e ASIC – il ruolo esclusivo nell’elaborazione AI. L’analisi dei carichi reali ha però evidenziato un quadro più complesso: orchestrazione dei workflow, gestione della memoria, scheduling dei task e pre-processing dei dati restano attività fortemente dipendenti dalla CPU.

Le CPU Xeon, spiega Intel, continuano quindi a rappresentare il punto di coordinamento dell’intero sistema; non si limitano a eseguire “codice generico” ma gestiscono flussi di inferenza distribuiti, interazioni tra modelli e servizi, oltre a funzioni di sicurezza e isolamento. In ambienti hyperscale, questi aspetti incidono direttamente sulla latenza e sul costo per ogni singola richiesta gestita.

Intel e Google hanno deciso di allineare lo sviluppo su più generazioni di CPU, con un obiettivo chiaro: migliorare prestazioni per watt e ridurre il total cost of ownership.

Ciò implica interventi a livello di microarchitettura, gestione delle cache L3 e ottimizzazione dei controller di memoria DDR5 e CXL, sempre più rilevanti nei cluster AI ad alta densità.

Il ruolo delle IPU nella separazione dei carichi

L’altro pilastro dell’accordo Intel-Google riguarda lo sviluppo congiunto di IPU (Infrastructure Processing Unit), ASIC (circuiti integrati) programmabili progettati per alleggerire la CPU dalle attività legate all’infrastruttura. Non si tratta di acceleratori AI in senso stretto, ma di componenti dedicati a funzioni specifiche: networking, storage, sicurezza e gestione del traffico dati.

Le IPU operano a livello di data plane: intercettano e processano pacchetti, gestiscono cifratura TLS, offload delle operazioni NVMe e virtualizzazione della rete. In questo modo liberano cicli CPU che possono essere riallocati verso workload ad alto valore computazionale, come inferenza od orchestrazione dei modelli.

Dal punto di vista architetturale, queste unità introducono un modello più vicino al cosiddetto disaccoppiamento funzionale: la CPU mantiene il controllo logico del sistema, mentre le IPU eseguono in modo deterministico operazioni ripetitive e ad alta frequenza. Il risultato è una maggiore prevedibilità delle prestazioni, aspetto critico nei servizi AI esposti tramite API (Application Programming Interfaces).

Inferenza AI e nuovi pattern di carico

Uno dei fattori chiave che giustificano l’evoluzione riguarda lo spostamento dei carichi verso l’inferenza. Addestrare modelli resta un processo intensivo ma episodico; eseguire inferenza, invece, richiede capacità costante e scalabilità orizzontale. In questi scenari, la CPU torna determinante: gestisce batching dinamico, routing delle richieste e interfaccia con servizi esterni.

La conseguenza diretta è un aumento della domanda di CPU nei data center AI, in controtendenza rispetto alle aspettative iniziali che vedevano una progressiva marginalizzazione di questi componenti.

Come accennato in precedenza, Intel punta a intervenire anche sul piano del packaging e dell’interconnessione, con tecnologie come EMIB e CXL che consentono una comunicazione più efficiente tra componenti. L’obiettivo è ridurre le latenze tra CPU, memoria e acceleratori, migliorando l’utilizzo effettivo delle risorse.

Architetture eterogenee e software di orchestrazione

L’integrazione tra CPU, IPU e acceleratori richiede un livello software adeguato. Framework come Intel oneAPI mirano a offrire un’astrazione unificata per programmare architetture eterogenee, evitando la frammentazione degli strumenti e delle API.

Google, da parte sua, lavora da tempo su sistemi di orchestrazione avanzati in grado di gestire workload distribuiti su larga scala. L’interazione tra questi sistemi e le nuove IPU sono tra gli aspetti più interessanti dell’accordo: l’hardware diventa sempre più programmabile, mentre il software assume il ruolo di coordinamento intelligente delle risorse.

La collaborazione tra le due aziende non si limita quindi all’hardware, ma si estende implicitamente allo stack software che governa l’intero ciclo di vita dei flussi di lavoro imperniati sull’AI.

Il risultato è un modello architetturale più articolato ma anche più efficiente: meno dipendenza da singoli acceleratori, maggiore flessibilità operativa e una gestione più precisa dei carichi AI su scala globale.