Creare testo parlato a partire da 3 secondi di registrazione vocale con VALL-E X

A gennaio 2023 un gruppo di ricercatori Microsoft ha presentato VALL-E, uno strumento che permette di generare qualunque voce con un’operazione di sintesi vocale. Su GitHub è disponibile un progetto derivato, chiamato VALL-E X, che nasce come sviluppo dell’iniziativa originariamente promossa da Microsoft. L’applicazione open source permette di creare testo parlato a partire da soli 3 secondi di audio registrato, indipendentemente dalla lingua.

VALL-E X, è sviluppato da zero da un programmatore indipendente (ha rilasciato tutto il sorgente del suo lavoro), è in grado di effettuare la sintesi vocale di un breve spezzone audio registrato ed è capace di usare la caratteristiche vocali dell’individuo per generare un flusso sonoro nella stessa lingua o in altre lingue.

Come abbiamo visto nell’articolo su come modificare la voce gratis, i parametri vocali sono piuttosto facili da estrapolare ed è quindi possibile generare un modello sonoro a partire dalle caratteristiche peculiari della voce altrui.

Aveva destato grande scalpore la notizia di Alexa che imita le voci: in quel caso l’intelligenza artificiale sviluppata da Amazon fu usata per far leggere una fiaba a un bambino con la voce della nonna ormai defunta. Anche in questo caso applicativo, il modello vocale era generato sottoponendo ad Alexa una registrazione del parlato lunga circa un minuto. A VALL-E X, invece, bastano appena 3 secondi di parlato, anche per passare da una lingua all’altra.

Come funziona VALL-E X e come può creare testo parlato in varie lingue

Usando come prompt i fonemi derivati derivati dal testo di partenza e da quello di destinazione (cosa la persona diceva nella registrazione audio usati in input; cosa deve dire nell’audio prodotto dall’AI) e servendosi inoltre dei token acustici di origine, VALL-E X può produrre token acustici nella lingua di destinazione. A loro volta, queste entità di base sono combinate tra loro per generare la forma d’onda corretta corrispondente al parlato di qualunque soggetto.

Il sistema non richiede dati vocali multilinguistici delle persone coinvolte ai fini di addestramento del modello e può eseguire varie attività di generazione del parlato multilingue in “un’unica passata”.

Al momento VALL-E X supporta soltanto tre lingue (tra le quali non c’è l’italiano) ma gli sviluppatori del progetto sono determinati a ottimizzarlo estendendo in maniera significativa la platea dei potenziali utenti.

Per provare il funzionamento di VALL-E X, è possibile visitare questa pagina su Hugging Face quindi caricare uno spezzone audio vocale di 3-10 secondi indicando poi il testo che si desidera ottenere. Il modello generativo provvede ad effettuare la sintesi vocale del testo fornito usando la stessa voce contenuta nel prompt audio fornito in ingresso. VALL-E X tende inoltre a preservare il tono e gli eventuali rumori di fondo presenti nella registrazione fornita dall’utente.

Seguendo le indicazioni riportate su GitHub, è anche possibile implementare VALL-E X in locale senza appoggiarsi al cloud. Per eseguire l’installazione, sono necessari Python, CUDA e PyTorch. Per clonare il repository e installare automaticamente tutti i requisiti, si può procedere in questo modo dalla finestra del terminale Linux:

git clone https://github.com/Plachtaa/VALL-E-X.git cd VALL-E-X pip install -r requirements.txt

Lo sviluppatore indica che è necessaria una scheda grafica con almeno 6 GB di VRAM installati a bordo.