Avrete certamente seguito la querelle tra l’attrice Scarlett Johansson e OpenAI. La prima ha platealmente accusato il team guidato da Sam Altman di aver “plagiato” la sua voce per realizzare una delle opzioni di sintesi vocale integrate nei prodotti OpenAI. E questo, sembra, dopo che la Johansson aveva rinviato al mittente la richiesta di partecipare a una sessione di registrazione.

Per evitare problemi, e nell’ottica di una collaborazione costruttiva, OpenAI ha confermato si essersi attivata per sospendere l’utilizzo della voce chiamata “Sky” all’interno di tutti i suoi prodotti e servizi. L’azienda ha però voluto precisare che la voce “Sky” non è affatto quella della Johansson, anche se a un primo ascolto possa apparire simile. Invece, è frutto del contributo di una professionista che ha collaborato con OpenAI per comporre un modello vocale accattivante.

Cinque mesi per creare il modello vocale alla base di Sky

OpenAI racconta che la ricerca delle voci perfette per ChatGPT è stata un'”impresa lunga e meticolosa“, che si è protratta per oltre cinque mesi. In collaborazione con rinomati direttori di casting e produttori, OpenAI ha stabilito i criteri specifici che avrebbero dovuto soddisfare le voci. Si sono scelti attori di diversa provenienza o in grado di parlare più lingue, voci accattivanti, dai toni caldi e carismatici, naturali e piacevoli all’ascolto.

Un anno fa, a maggio 2023, un’agenzia di casting ha collaborato con OpenAI per individuare le migliori voci a livello internazionale. In meno di una settimana, sono pervenute oltre 400 candidature da attori di cinema e doppiatori. Ogni candidato ha registrato un campione di risposte di ChatGPT, simulando situazioni diverse.

Dopo un’attenta valutazione, il team specializzato ha selezionato 14 voci semifinaliste. Successivamente, i responsabili di OpenAI hanno ascoltato e valutato queste voci, tenendo conto anche delle prospettive di prodotto e di ricerca. A valle di tutto il lavoro svolto, sono state scelte le cinque voci definitive: Breeze, Cove, Ember, Juniper e Sky. Quest’ultima è proprio quella che la Johansson ritiene una copia della sua voce.

Come provare la voce Sky di ChatGPT

A fine novembre 2023, OpenAI ha lanciato ChatGPT Voice, una funzionalità che permette di dialogare in tempo reale con il chatbot usando la propria voce. Un motore speech-to-text acquisisce le domande degli utenti, avanzate usando la loro voce, le passa al sottostante modello generativo (GPT, Generative Pre-trained Transformer) quindi il sistema di sintesi vocale text-to-speech legge la risposta composta dall’intelligenza artificiale con il modello vocale selezionato.

Per provare la voce Sky prima che sia rimossa (almeno temporaneamente) da OpenAI, è possibile installare l’app ChatGPT sul proprio dispositivo mobile, accedere al menu principale toccando l’icona in alto a sinistra, selezionare i tre puntini in basso accanto al nome dell’utente e, una volta nel menu Impostazioni, scorrere fino a trovare la sezione Audio.

In corrispondenza di Input language, si deve selezionare Italiano mentre appena sopra (Vocali) indicare Sky come modello vocale preferito (Scegli una voce).

A questo punto, toccando l’icona delle cuffie a destra della casella Messaggio, è possibile avviare la chat vocale con ChatGPT. Non è necessario che l’applicazione resti “in primo piano”: è capace di rispondere alle richiesta anche in background. In questo caso, passando all’utilizzo di altre app, nell’area delle notifiche compare il messaggio Conversazione vocale in corso.

Nel caso in cui il modello vocale dovesse fornire una risposta in inglese, suggeriamo di ripetere la domanda in italiano, aggiungendo però un esplicito comando “spiegalo in italiano“.

Come sottolineavamo a novembre 2023, l'”accento” delle voci proposte – compresa Sky – è spiccatamente anglosassone: la risposta, una volta riprodotta dal motore di sintesi, è comunque comprensibile. Almeno nella stragrande maggioranza dei casi.

Nuove voci ChatGPT in arrivo

OpenAI ha precisato che al di là dell’incidente con la Johansson, che conta di risolvere in modo bonario, la Voice Mode di ChatGPT è solo l’inizio di un percorso. L’azienda sta infatti lavorando per portare l’integrazione vocale a un livello ancora più elevato con il modello GPT-4o, che offrirà un’esperienza vocale ancora più fluida e naturale. Inoltre, è prevista l’introduzione di nuove voci per soddisfare le diverse preferenze degli utenti.

L’azienda guidata da Altman ha inoltre voluto precisare che ogni soggetto che ha prestato la sua voce per ChatGPT, ha ricevuto un compenso equo e ha avuto l’opportunità di comprendere appieno la portata e le implicazioni del proprio coinvolgimento nel progetto. Compresa la persona che ha messo a disposizione la sua voce per la realizzazione del modello alla base di Sky.

OpenAI ha insomma voluto ribadire che le voci di ChatGPT non sono imitazioni di celebrità, ma appartengono a talenti autentici che hanno prestato la loro voce naturale al servizio dell’iniziativa.

L’implementazione della Voice Mode in ChatGPT vuole sottolineare l’impegno di OpenAI al fine di creare un’interazione uomo-macchina sempre più coinvolgente e realistica. Grazie alla collaborazione con professionisti del settore e all’attenzione verso l’etica e la trasparenza, ChatGPT fa riferimento alla volontà di ridefinire i confini dell’intelligenza artificiale conversazionale.

La società non parla al momento di un’integrazione diretta, ad esempio, con Android Auto ma è comunque possibile dialogare con la Voice Mode di ChatGPT usando gli speaker audio installati nel proprio veicolo effettuando l’accoppiamento Bluetooth del telefono con il sistema di infotainment della vettura.