TensorRT-LLM per Windows: intelligenza artificiale NVidia per chi usa schede RTX

I modelli generativi rappresentano una delle innovazioni più importanti dell’ultimo decennio. In un altro articolo abbiamo visto come eseguire e usare LLM con Ollama in locale sui propri sistemi, cosa impensabile già fino a qualche mese fa. Con una mossa a sorpresa, NVidia prova a “democratizzare” l’accesso alle soluzioni di intelligenza artificiale rilasciando la prima versione di TensorRT-LLM per Windows.

Cos’è TensorRT-LLM e come funziona

Già svelata in passato, TensorRT-LLM è una libreria open source che accelera le prestazioni di inferenza con i più recenti modelli linguistici avanzati (LLM, Large Language Models), come Llama 2 e Code Llama. Se però, a partire da settembre 2023, TensorRT-LLM aveva raggiunto il mondo dei data center, adesso NVidia offre le stesse possibilità niente meno che agli utenti Windows.

Le GPU GeForce RTX e RTX, dotate di processori dedicati a svolgere elaborazioni legate all’intelligenza artificiale (Tensor Core) permettono di fruire della potenza degli LLM, in modo nativo, su oltre 100 milioni di PC e workstation basati su Windows. Secondo NVidia, la versione di TensorRT-LLM per Windows è più veloce di quattro volte rispetto a qualunque soluzione oggi disponibile e consente di ridurre le tempistiche per le elaborazioni appoggiandosi alla potenza computazionale delle schede RTX.

NVidia ha anche rilasciato degli strumenti software per aiutare gli sviluppatori ad accelerare i loro modelli linguistici avanzati, inclusi script che ottimizzano modelli personalizzati con TensorRT-LLM, modelli open source ottimizzati con TensorRT e un progetto di riferimento che mostra velocità e qualità delle risposte ottenibili.

Cosa si può fare con TensorRT-LLM

I possibili campi applicativi di TensorRT-LLM sono di fatto praticamente infiniti: gli LLM sono infatti al centro di nuovi flussi di lavoro facenti perno sull’IA; sono inoltre, ovviamente, protagonisti nei software che analizzano automaticamente i dati e generano una vasta gamma di contenuti.

Il balzo in avanti in termini di performance garantito da TensorRT-LLM apre le porte a utilizzi sempre più sofisticati: sviluppo di assistenti per la scrittura e per lo sviluppo software che producono risultati multipli di qualità in maniera del tutto autonoma. La soluzione proposta da NVidia permette di integrare le capacità LLM con altre tecnologie, ad esempio retrieval-augmented generation (RAG), un approccio nell’ambito dell’elaborazione del linguaggio naturale (NLP) che combina la generazione di testo con la capacità di recuperare e utilizzare informazioni da un insieme di dati di riferimento o da una base di conoscenza.

In pratica, durante il processo di generazione, il modello ha accesso a un set di documenti o dati correlati e può recuperare frammenti o informazioni specifiche per integrarli nel testo generato. Ciò consente di creare risposte più informate e pertinenti, specialmente quando la comprensione del contesto è cruciale.

Un esempio di applicazione RAG potrebbe essere un assistente virtuale che, quando gli viene posta una domanda, non solo genera una risposta basata sulla sua “conoscenza” interna (sviluppata in fase di addestramento), ma può anche recuperare informazioni aggiuntive da una fonte esterna per fornire una risposta più completa e accurata.

Stable Diffusion accelerata con TensorRT

I modelli di diffusione, come Stable Diffusion, sono utilizzati per creare opere d’arte sorprendenti utilizzando proprio l’intelligenza artificiale. TensorRT accelera questi modelli attraverso la fusione di layer, calibrazione di precisione, auto-tuning del kernel e altre funzionalità che aumentano notevolmente l’efficienza e la velocità dell’inferenza. Così TensorRT ambisce a diventare il punto di riferimento de facto per applicazioni in tempo reale e attività che richiedono l’utilizzo intensivo di risorse.

NVidia sostiene che TensorRT è capace di raddoppiare la velocità di Stable Diffusion, rendendola compatibile con la popolare distribuzione WebUI di Automatic1111. Questa accelerazione consente agli utenti di iterare più velocemente, riducendo i tempi di attesa e ottenendo più rapidamente l’immagine finale.

TensorRT-LLM per Windows sarà presto disponibile per il download dal sito Web NVidia per gli sviluppatori. I modelli open source ottimizzati per TensorRT e RAG sono pubblicati sul repository GitHub dell’azienda.

L’immagine in apertura è tratta dal post di presentazione di NVidia.