ChatRTX più potente: il chatbot NVIDIA gratuito adesso riconosce immagini e voce

Il chatbot ChatRTX di NVIDIA cresce ancora e diventa in grado di supportare un numero più ampio di LLM, di riconoscere le immagini grazie a CLIP dialogando con gli utenti usando il linguaggio naturale e di elaborare le richieste vocali. Il tutto senza inviare un solo bit di dati sulla rete Internet, offrendo massime garanzie sul piano della sicurezza e della privacy.

Tra i chatbot più promettenti, oggi disponibili a costo zero, c’è anche quello di NVIDIA. ChatRTX è uno strumento che combina l’uso di Large Language Model (LLM) forniti dall’azienda guidata da Jensen Huang con l’accelerazione delle schede NVIDIA RTX al fine di portare le capacità dell’IA generativa direttamente sui PC Windows con GPU GeForce.

ChatRTX consente agli utenti di aggiungere i propri file locali come set di dati per estendere le potenzialità dei modelli linguistici open source. In questo modo, è facile attivare funzionalità RAG (Retrieval-Augmented Generation) per effettuare ricerche sui dati personali e aziendali ottenendo risposte pertinenti e personalizzate. Non solo. Poiché tutte le elaborazioni avvengono in locale, nessun dato personale o riservato lascia mai il proprio PC: gli utenti possono così godere di massime garanzie in termini di sicurezza e privacy. In un altro articolo abbiamo visto come eseguire il chatbot in locale su un NAS QNAP: l’obiettivo è combinare le abilità di ChatRTX con il volume di dati tipicamente memorizzati in un dispositivo per lo storage qual è un server NAS.

Per usare il chatbot intelligente di NVIDIA, è necessario usare una macchina Windows 10 o 11, disporre di almeno 100 GB di spazio libero, di una GPU GeForce RTX 3000 o superiore con almeno 8 GB di VRAM dedicata e degli ultimi driver. ChatRTX è scaricabile da questa pagina a costo zero.

Il nuovo ChatRTX riconosce le immagini e apre ad altri LLM

I portavoce di NVIDIA hanno annunciato la disponibilità di una versione completamente rinnovata di ChatRTX. Diversamente rispetto a quanto possibile fino ad oggi, d’ora in avanti gli utenti possono scegliere il LLM da usare con il chatbot: si può perciò attingere anche ai modelli open source sviluppati e messi a disposizione dai soggetti diversi da NVIDIA.

Accanto quindi ai modelli Mistral e Llama 2, inizialmente offerti da ChatRTX, NVIDIA propone adesso anche alternative quali Gemma, ChatGLM3 e CLIP.

CLIP è un modello per il riconoscimento delle immagini governato dall’intelligenza artificiale che massimizza le abilità di ChatRTX. Si può attivarlo e usarlo, ad esempio, per abilitare la ricerca delle immagini in ambito locale senza aver effettuato una precedente attività di “etichettatura”. Una dimostrazione delle potenzialità di ChatRTX con CLIP sono disponibili in questo video YouTube.

Tutto si riduce alla scelta di CLIP dal menu a tendina Select AI Model, nell’interfaccia Web locale di ChatRTX e al successivo inserimento di una descrizione in linguaggio naturale delle foto che si desiderano individuare nel proprio archivio.

Riconoscimento vocale e supporto di prompt con la voce

L’altra importante novità integrata in ChatRTX consiste nell’aggiunta del riconoscimento vocale. Il funzionamento di questa caratteristica è guidato dal modello Whisper di OpenAI.

Il sistema di riconoscimento automatico del parlato utilizza l’IA per elaborare le richieste avanzate utilizzando la voce. In questo modo, gli utenti possono inviare query vocali all’applicazione e ChatRTX fornirà risposte testuali.

L’ampliamento delle abilità di ChatRTX guarda all’obiettivo verso cui stanno puntando tante altre realtà, a partire evidentemente da OpenAI. Gli utenti NVIDIA possono beneficiare di un sistema multimodale capace cioè di unire testi, immagini e audio. CLIP è una rete neurale che, attraverso l’addestramento e il perfezionamento, apprende concetti visivi dalla supervisione del linguaggio naturale: riconosce ciò che “vede” nelle raccolte di immagini.

Abbinando l’uso di questo modello con Whisper, si ha a disposizione uno strumento avanzato grazie al quale diventa possibile interagire non solo con LLM “generalisti” ma con la “base di conoscenze” disponibilità in seno alla propria attività o impresa.

Ti consigliamo anche

Link copiato negli appunti