Intel, +20x in 18 anni: da Penryn a Panther Lake, come sono cambiate le CPU notebook

Intel

Negli ultimi 18 anni l’architettura dei processori Intel per notebook ha subìto una trasformazione profonda che riguarda praticamente ogni livello del design: processo produttivo, microarchitettura dei core, organizzazione delle cache, sistema di interconnessione interno e integrazione di acceleratori specializzati. Mettendo a confronto diverse CPU mobile distribuite lungo questo arco temporale, si scopre che l’incremento medio delle prestazioni è superiore a 20 volte ma in alcuni workload specifici – come crittografia e inferenza AI – il divario può superare anche le 90 volte.

Una breve nota iniziale

Per rendere il confronto leggibile e tecnicamente significativo, l’analisi che proponiamo di seguito non include tutte le generazioni intermedie, ma si concentra su alcune microarchitetture chiave che hanno introdotto cambiamenti strutturali nel design delle CPU Intel in ambito mobile.

Molte generazioni successive rappresentano infatti evoluzioni incrementali delle precedenti, ad esempio ottimizzazioni del processo produttivo o miglioramenti dell’IPC, senza modificare in modo sostanziale l’organizzazione interna del processore.

La selezione si concentra quindi sui punti di discontinuità architetturale, cioè sulle fasi in cui Intel ha introdotto nuove soluzioni come il controller di memoria integrato, l’integrazione della GPU nel die, le estensioni vettoriali avanzate o l’architettura ibrida.

Penryn (2008): il punto di partenza

Nel 2008 molti notebook professionali utilizzavano processori della famiglia Core 2 Duo Penryn, come il modello T9300, basato su processo produttivo a 45 nm. Si tratta di una microarchitettura derivata dalla famiglia Core introdotta nel 2006, caratterizzata da un design relativamente semplice rispetto agli standard attuali.

Il T9300 possiede due core fisici senza supporto Hyper-Threading e opera a una frequenza massima di 2,5 GHz. Il processore integra circa 410 milioni di transistor e utilizza una cache L2 condivisa da 6 MB, mentre la cache L1 è suddivisa in 32 KB per dati e 32 KB per istruzioni per ciascun core. La comunicazione con la memoria avviene tramite Front-Side Bus a 800 MT/s, che collega il processore al chipset esterno contenente il controller di memoria.

Dal punto di vista della struttura interna del processore, Penryn è una CPU superscalare (in grado di eseguire più istruzioni contemporaneamente) con esecuzione out-of-order, cioè capace di riorganizzare dinamicamente l’ordine delle istruzioni per migliorare le prestazioni, e può gestire fino a quattro micro-operazioni (operazioni elementari derivate dalle istruzioni) per ogni ciclo di clock.

Il design prevede unità di esecuzione distinte per tre tipi di calcolo: operazioni su numeri interi, operazioni in virgola mobile (cioè numeri con parte decimale) e operazioni SIMD, che permettono di elaborare più dati contemporaneamente con una singola istruzione; tuttavia, le istruzioni vettoriali disponibili si fermano allo standard SSE4.1 e utilizzano registri da 128 bit, ossia contenitori di dati di dimensione limitata rispetto a soluzioni più recenti. Ciò implica che l’elaborazione di dati vettoriali complessi richiede numerosi cicli di esecuzione e non può sfruttare un ampio parallelismo.

Se confrontato con processori moderni, Penryn presenta alcuni limiti molto evidenti. L’assenza di un controller di memoria integrato introduce latenze relativamente elevate, mentre la comunicazione tra il processore (core) e il chipset tramite il Front-Side Bus, cioè il canale che collega la CPU al resto del sistema, può diventare un limite alle prestazioni (collo di bottiglia) quando più operazioni cercano di accedere alla memoria nello stesso momento.

La transizione a Nehalem (2008-2009): memoria integrata e Hyper-Threading

La generazione successiva, Nehalem, introduce un cambiamento radicale nella progettazione delle CPU Intel. Il controller di memoria è integrato direttamente nel processore, eliminando il Front-Side Bus e riducendo significativamente la latenza di accesso alla RAM.

Parallelamente, nelle architetture Nehalem Intel introduce nuove interconnessioni interne: nelle piattaforme server e desktop di fascia alta viene utilizzato il collegamento QuickPath Interconnect (QPI), mentre nei sistemi mobile la comunicazione con il chipset avviene tramite Direct Media Interface (DMI), con il controller di memoria integrato direttamente nel processore.

Un tipico processore mobile di questa generazione, come il Core i7-720QM, dispone di quattro core fisici con Hyper-Threading, per un totale di otto thread logici. La frequenza base è di circa 1,6 GHz, ma la tecnologia Turbo Boost può portarla oltre 2,8 GHz quando pochi core sono attivi.

La gerarchia delle cache è completamente ridisegnata dagli ingegneri Intel. Oltre alle cache L1 e L2 private per ciascun core, compare una cache L3 condivisa da 6 MB, che svolge un ruolo fondamentale nel mantenere la coerenza dei dati tra i core.

Il passaggio da Penryn a Nehalem produce un incremento di prestazioni significativo, soprattutto nei carichi di lavoro multi-thread. Nei benchmark il miglioramento può avvicinarsi al doppio, principalmente grazie al raddoppio del numero di core e al supporto per l’esecuzione simultanea di più thread.

Sandy Bridge (2011) e Ivy Bridge (2012): integrazione avanzata dei componenti nel processore

Con la microarchitettura Sandy Bridge, introdotta nel 2011, Intel compie un passo decisivo verso una maggiore integrazione dei componenti all’interno del processore. La GPU è integrata nello stesso die della CPU e scambia dati con i core del processore tramite un sistema di collegamento interno chiamato ring bus, una struttura ad anello che consente una comunicazione rapida ed efficiente tra i diversi componenti.

L’architettura migliora l’efficienza delle comunicazioni tra core, cache e controller di memoria. In un processore come il Core i7-2720QM, ad esempio, i quattro core CPU condividono una cache L3 da 6 MB, mentre il ring bus permette a ciascun core di accedere rapidamente alle risorse comuni.

Sandy Bridge introduce anche le istruzioni AVX, che raddoppiano la larghezza dei registri vettoriali portandola a 256 bit. Ciò consente di eseguire operazioni floating-point su vettori più ampi, migliorando notevolmente le prestazioni in applicazioni scientifiche e multimediali.

La generazione successiva, Ivy Bridge, mantiene la stessa architettura ma introduce transistor Tri-Gate FinFET a 22 nm, aumentando la densità dei transistor e riducendo i consumi energetici.

Skylake e l’evoluzione dell’IPC

Tra il 2015 e il 2019 Intel sviluppa numerose iterazioni della microarchitettura Skylake. In questa fase la crescita delle prestazioni è meno legata all’aumento della frequenza di clock e più al miglioramento dell’efficienza dell’architettura interna.

I core Skylake adottano un front-end più efficiente: i decodificatori (unità che traducono le istruzioni del programma in operazioni interne più semplici) sono progettati per sostenere una pipeline più ampia, cioè una struttura capace di elaborare più istruzioni in parallelo, mentre la cache di micro-operazioni (una memoria interna che conserva istruzioni già tradotte) riduce la necessità di ripetere il processo di decodifica, migliorando così le prestazioni complessive.

Il motore di esecuzione out-of-order (cioè capace di eseguire le istruzioni non necessariamente nella sequenza originale) utilizza buffer più ampi e scheduler, i componenti che decidono quando e in quale ordine eseguire le istruzioni, più avanzati, permettendo al processore di gestire contemporaneamente un numero maggiore di istruzioni in fase di elaborazione.

Intel introduce il supporto per le istruzioni AVX2, mentre estensioni più avanzate come AVX-512 saranno introdotte solo in alcune microarchitetture successive e non sono una caratteristica tipica dei processori mobile Skylake.

Anche la memoria evolve significativamente. I processori Skylake supportano DDR4 e, in alcune configurazioni mobile, anche memorie low-power, offrendo una banda di memoria superiore rispetto alle generazioni precedenti.

L’architettura ibrida: Alder Lake (2021) e la combinazione di core differenti

Una delle innovazioni più importanti delle CPU Intel moderne è l’introduzione di un’architettura ibrida, che combina due tipi di core con caratteristiche differenti. Tale soluzione debutta con la generazione Alder Lake.

I core ad alte prestazioni, chiamati P-core, sono progettati per offrire il massimo throughput per thread singolo e supportano Hyper-Threading. I core efficienti, detti E-core, sono più piccoli e consumano meno energia, ma possono essere utilizzati in gruppi numerosi per gestire workload altamente paralleli.

Un processore mobile come il Core i7-12700H può includere 6 P-core e 8 E-core, per un totale di 14 core e 20 thread. La configurazione consente al sistema operativo di distribuire i carichi di lavoro tra core con caratteristiche energetiche differenti, migliorando sia le prestazioni sia l’efficienza energetica.

Panther Lake (2026): architettura modulare e nodo 18A

Le architetture più recenti adottano un design modulare basato su tile (in casa AMD si parlerebbe di chiplet). Invece di costruire un unico grande die monolitico, il processore è suddiviso in più componenti collegati tramite interconnessioni ad alta velocità.

Nel caso di Panther Lake, il compute tile che contiene i core CPU è prodotto con il nodo Intel 18A, uno dei processi più avanzati sviluppati dall’azienda. Il chip include inoltre un tile grafico basato su architettura Xe di nuova generazione e un tile dedicato all’I/O.

Le configurazioni variano a seconda della fascia, combinando core ad alte prestazioni ed efficienti in numero crescente rispetto alle generazioni precedenti. Oltre alla CPU tradizionale, questi processori integrano anche un’unità di elaborazione neurale (NPU), progettata per accelerare l’inferenza dei modelli di machine learning.

Conclusioni

Il confronto tra Penryn e Panther Lake mostra chiaramente come l’architettura delle CPU mobile sia cambiata in modo radicale nel giro di meno di vent’anni.

Nel 2008 un notebook tipico utilizzava un processore dual-core con cache condivisa e accesso alla memoria mediato dal chipset. Oggi i processori laptop sono sistemi complessi che integrano numerosi core eterogenei, GPU avanzate e acceleratori dedicati all’intelligenza artificiale.

L’aumento di oltre 20 volte nelle prestazioni medie osservato nei benchmark è il risultato di numerose innovazioni cumulative: miglioramenti del processo produttivo, espansione del parallelismo, estensioni vettoriali sempre più ampie e design modulari basati su chiplet.

Il futuro dei processori sembra quindi orientato verso architetture sempre più eterogenee, dove CPU, GPU e acceleratori specializzati collaborano all’interno dello stesso sistema per gestire workload sempre più complessi.

L’immagine in apertura è di Intel Corporation.