Intel punta sull'open source: la libreria per usare la NPU dei nuovi Core Meteor Lake

Intel rilascia una libreria open source che permette agli sviluppatori di eseguire alcuni modelli generativi (come TinyLlama e Gemma-2b-it) direttamente sulla NPU dei processori Core Ultra Meteor Lake. Ecco come funziona e quali sono le sue caratteristiche.

La società di Santa Clara continua ad aprire un po’ alla volta le sue tecnologie mettendole direttamente nelle mani degli sviluppatori. Abbiamo già visto il toolkit OpenVINO, utilizzabile da qualunque programmatore per implementare e ottimizzare modelli di deep learning. Si tratta di uno strumento software che aiuta a sviluppare soluzioni AI scalabili ed efficienti con poche righe di codice. Gli sviluppatori di Audacity hanno usato OpenVINO per introdurre effetti basati sull’IA e Qualcomm stessa si è servita del toolkit per paragonare il funzionamento dei SoC Snapdragon X Elite con i Core Ultra.

Adesso Intel ha pubblicato su GitHub la sua NPU Acceleration Library, un componente software che aiuta gli sviluppatori ad eseguire i modelli generativi più compatti direttamente sul processore Meteor Lake. Ad esempio, grazie alla libreria Intel, che abilita l’uso della NPU (Neural Processing Unit) sui chip di ultima generazione, si possono eseguire LLM (Large Language Model) “ridotti un po’ più all’osso” come TinyLlama.

Come funziona l’accelerazione via NPU e come abilitarla sui chip Intel Core Ultra Meteor Lake

Tony Mongkolsmai, Intel Software Architect, ha pubblicato su X un esempio di configurazione basata su un notebook MSI Prestige 16 AI Evo con processore Meteor Lake, capace di eseguire senza problemi un chatbot basato su TinyLlama 1.1B.

Questo tweet contiene il codice utilizzato dall’ingegnere software Intel per attivare la libreria open source a sua volta in grado di spostare parte del carico di lavoro sulla NPU integrata. Come si vede in questo post, il Task Manager di Windows segnala l’attività sulla NPU, a conferma che l’utilizzo della libreria Intel è pienamente efficace.

Al momento, il codice Python e la libreria aperta sviluppata dai tecnici Intel è ovviamente compatibile soltanto con i chip Meteor Lake. Sono infatti gli unici processori dell’azienda guidata da Pat Gelsinger a integrare una NPU.

I chip Arrow Lake e Lunar Lake dovrebbero arrivare sul mercato entro la fine dell’anno andando ad estendere significativamente il ventaglio dei processori Intel compatibili. Dovrebbero altresì assicurare prestazioni fino a tre volte superiori rispetto a Meteor Lake nel campo dell’IA, consentendo l’esecuzione di LLM più pesanti su sistemi notebook e desktop.

La libreria Intel per la NPU dei suoi processori manca ancora di tante caratteristiche: ecco quali sono

Stando a quanto riferito da Intel, la NPU Acceleration Library è ancora ben lungi dall’essere completa. Basti pensare che ad oggi integra appena la metà delle caratteristiche inizialmente pianificate. Quali sono gli aspetti più rilevanti che ancora mancano all’appello?

Innanzi tutto, è assente il supporto per la cosiddetta inferenza a precisione mista. La NPU al momento non può simultaneamente usare formati di dati a precisione inferiore, come float16, insieme a formati di dati a precisione maggiore, come float32, per ridurre i requisiti computazionali e migliorare le prestazioni.

Inoltre, manca BFloat16, un formato di dati a 16 bit ideale per i carichi di lavoro legati all’intelligenza artificiale. Consente di bilanciare la precisione richiesta per i calcoli IA con l’efficienza di archiviazione e di elaborazione rispetto ai tradizionali formati a 32 bit.

La libreria open source di Intel, infine, non è compatibile con la distribuzione dei workload tra più unità computazionali, ad esempio tra NPU e GPU. L’aggiunta di questa caratteristiche implicherebbe un significativo miglioramento prestazionale.

NPU, libreria Intel open source

NPU utile anche dal punto di vista della sicurezza secondo Intel

Secondo Intel, la NPU è utile anche per migliorare la sicurezza informatica. La possibilità di eseguire modelli di deep learning apre al rilevamento in tempo reale di minacce, senza dover attendere l’elaborazione basata su cloud.

L’utilizzo della NPU per eseguire modelli di intelligenza artificiale direttamente sull’endpoint riduce la latenza, cioè il tempo necessario per elaborare la situazione e rispondere alle minacce; inoltre, consente di ridurre lo stress sulla larghezza di banda disponibile; migliora la privacy permettendo agli utenti di mantenere il controllo sui loro dati; consente di sviluppare approcci creativi per il riconoscimento e la neutralizzazione delle minacce.

Credit immagine in apertura: Intel. Immagine nel testo, fonte: “Protect Your Business with AI-based Security (Intel)“.

Ti consigliamo anche

Link copiato negli appunti