ChatGPT è capace di vedere, leggere e ascoltare: ecco come

ChatGPT

Quando Sam Altman, CEO di OpenAI, diceva che la nuova versione del modello generativo GPT-5 non era all’orizzonte era un po’ per calmare le acque dopo i timori sollevatisi da più parti, circa l’utilizzo di un sempre più ampio numeri di parametri durante la fase di addestramento, un po’ per sottolineare come la sua azienda stesse concentrandosi su qualcosa di diverso. L’idea dei tecnici di OpenAI è infatti quella di abbracciare un approccio multimodale: e proprio oggi utilizza ChatGPT per dare prova di ciò che è possibile fare.

L’approccio multimodale abbina più “canali sensoriali” o tipi di dati: significa che oltre al testo, il modello può elaborare immagini, audio, video e così via. E ciò sia in ingresso che in uscita: in altre parole, l’utente può mostrare all’intelligenza artificiale un’immagine e ottenere una risposta pertinente e di qualità che integra l’elaborazione del contenuto di quell’immagine.

A sua volta, anche ChatGPT può produrre contenuti multimediali in modo da esprimere visualmente i concetti descritti con un approccio testuale oppure per veicolare informazioni difficilmente trasferibili all’utente in altri modi.

ChatGPT adesso sa vedere, leggere e ascoltare: vediamo come fa

Iniziamo col sottolineare che ChatGPT è un’applicazione a sua volta basata sul sottostante modello generativo. Visto il successo senza confini che ChatGPT ha fatto registrare, OpenAI usa il suo “pupillo” per offrire la percezione di una conoscenza a tutto tondo che riesce a mettere in correlazione diretta risorse completamente differenti per tipologia.

D’ora in avanti, gli utenti possono godere di un’interfaccia uomo-macchina intuitiva e avanzata: innanzi tutto, diventa possibile comunicare con ChatGPT non solo usando il testo ma anche la propria voce. Inoltre, si può mostrare a ChatGPT un’immagine per spiegare meglio di cosa si sta parlando.

Ecco, ChatGPT sapeva già leggere e – usando un modello probabilistico – “interpretare” il prompt dell’utente ovvero le informazioni offerte in input. Adesso, come spiega OpenAI, il chatbot amplia le sue potenzialità riuscendo ad ascoltare e “vedere”.

Riconoscimento vocale integrato

ChatGPT accetta adesso conversazioni bidirezionali utilizzando solo la voce. La nuova funzione vocale è alimentata da un nuovo modello text-to-speech, in grado di generare audio simile a quello umano utilizzando semplicemente del testo e alcuni secondi di un campione vocale. OpenAI ha collaborato con vocali professionisti per creare ciascuna delle voci utilizzate nell’applicazione.

Inoltre, ChatGPT si appoggia a Whisper, il sistema open source OpenAI per il riconoscimento vocale che aiuta a trascrivere le parole pronunciate dall’utente trasformandole in testo.

Con ChatGPT si può parlare mentre ci si trova in movimento, si può chiedere di generare e raccontare una storia della buonanotte o risolvere una problematica che non si riesce a risolvere mentre si è a cena in famiglia.

ChatGPT è in grado di esaminare il contenuto delle immagini

Gli sviluppatori di OpenAI spiegano che da oggi diventa possibile mostrare a ChatGPT qualunque immagine e ottenere un riscontro immediato. Ad esempio, scattando una foto del contenuto del frigorifero o della dispensa, si può chiedere al chatbot alcuni suggerimenti su cosa cucinare, con tanto di ricette pronte per l’uso.

Se si fosse dinanzi a un grafico complesso, ChatGPT può esaminarne il contenuto, estrarre i dati ed elaborare un commento che può essere utilizzato nell’ambito della propria attività lavorativa.

Ancora, si può risolvere un problema di matematica semplicemente scattando una foto: ChatGPT guida l’utente passo passo fino alla soluzione spiegando tutti i passaggi intermedi. Oppure si può chiedere a ChatGPT perché un dispositivo non si accende o non funziona come dovrebbe, semplicemente passandogli un’immagine.

La comprensione delle immagini è alimentata da modelli multimodali come GPT-3.5 e GPT-4: applicano le loro capacità di inferenza a una vasta gamma di immagini, come fotografie, screenshot e documenti.

Come attivare tutti i sensi di ChatGPT

Non sono e non possono essere “cinque sensi”, ma ChatGPT compie un enorme balzo in avanti con l’aggiornamento appena svelato da OpenAI. Nel giro delle prossime due settimane, gli utenti possessori di piani Plus ed Enterprise possono servirsi anche dei nuovi canali di interazione con ChatGPT, quindi beneficiare dell’uso delle immagini e della voce.

La funzione di riconoscimento vocale è disponibile nelle release di ChatGPT per Android e iOS: per attivarla, bisogna selezionare Nuove funzionalità nell’app mobile e abilitare le conversazioni vocali. Toccando il pulsante delle cuffie situato nell’angolo in alto a destra della schermata principale, si può scegliere la voce preferita tra le cinque proposte.

Per trasmettere a ChatGPT un’immagine basta toccare il pulsante “foto” oppure utilizzare lo strumento di disegno: sì, perché il chatbot diventa adesso capace di interpretare correttamente anche gli schizzi degli utenti ed eventualmente generare altri tipi di contenuti a partire da essi. L’applicazione può ricevere in input più immagini e disegni.

La costruzione di un’AGI, Intelligenza Artificiale Generale

L’obiettivo di OpenAI è arrivare a produrre una AGI (Intelligenza Artificiale Generale) ossia un sistema che ha la capacità di comprendere, apprendere e applicare la conoscenza in modo simile a un essere umano. Contrariamente all’IA specializzata, progettata per gestire compiti specifici, AGI sarebbe in grado di eseguire una vasta gamma di attività intellettuali in modo autonomo e adattabile, senza la necessità di essere programmata specificamente per ciascuna di esse. Una buona AGI dovrebbe apprendere dalle precedenti esperienze, adattarsi a nuove situazioni, risolvere problemi complessi e comprendere il contesto.

“Confezionare” una AGI è un obiettivo ambizioso: emulare le capacità cognitive umane è tutt’altro che semplice. Con le novità introdotte in ChatGPT, tuttavia, OpenAI dimostra di aver imboccato proprio quella strada. Contemporaneamente, l’utilizzo di modelli avanzati che coinvolgono la voce e la visione, obbliga ad apportare continue migliorie e mitigazioni dei rischi nel tempo.

Sul versante della voce, mettere nelle mani degli utenti la possibilità di realizzare voci sintetizzate in maniera davvero immediata, può infatti contribuire ad accrescere i rischi. Attori malintenzionati possono ad esempio usare la voce altrui per impersonare figure pubbliche o provare a commettere delle frodi.

Il rovescio della medaglia sono ovviamente le enormi potenzialità della tecnologia: Spotify sta ad esempio già usando la tecnologia OpenAI per consentire ai podcaster di generare automaticamente versioni delle loro “trasmissioni” destinate a chi parla un’altra lingua, conservando tutte le caratteristiche della voce.