Generare qualunque voce con Microsoft VALL-E: cos'è e come funziona

Un gruppo di ricercatori Microsoft mostra come è possibile generare modelli vocali molto precisi partendo da una registrazione audio di appena 3 secondi.

Abbiamo parlato più volte di DALL-E, strumento ideato da OpenAI (società che beneficia anche degli investimenti di Microsoft), che utilizza l’intelligenza artificiale per generare immagini di qualità a partire dal testo scritto.
Sempre OpenAI ha più di recente presentato il chatbot ChatGPT, capace di rispondere a qualunque quesito presentato dagli utenti.

Un team di sviluppatori Microsoft ha presentato oggi VALL-E, un motore basato sull’intelligenza artificiale che partendo da appena 3 secondi di registrazione vocale può generare un modello che permette di generare sequenze di parlato usando le proprietà della voce specifiche di ciascun individuo.
Si tratta di un enorme passo in avanti rispetto ad altri modelli che necessitano un addestramento più meticoloso richiedendo all’utente la condivisione di registrazioni di maggior durata.

Nella pagina dedicata al progetto VALL-E si spiega come è stato possibile raggiungere il risultato e quali strumenti sono stati utilizzati.

Il timbro, l’intonazione e lo stile della voce vengono mantenuti da VALL-E e dal sistema text-to-speech (TTS) integrato.
I ricercatori di Microsoft spiegano che gli esperimenti con VALL-E sono stati condotti previa specifica autorizzazione degli interessati all’utilizzo della loro voce. Per evitare utilizzi impropri, al momento si è preferito non rilasciare il codice sorgente di VALL-E. Non è dato sapere se ciò avverrà nel prossimo futuro.

Nonostante l’analisi delle caratteristiche vocali sia ancora oggi utilizzata per lo sblocco di alcune funzioni (si pensi alla funzione Voice Match dei dispositivi Google Home), gli enormi passi in avanti compiuti dalle soluzioni basate sull’intelligenza artificiale mostrano inequivocabilmente quanto sia insicuro usare questi sistemi per autenticare gli utenti (come secondo fattore vanno usati altri parametri biometrici quali l’impronta digitale o la scansione dell’iride).

Amazon Alexa già può imitare le voci dei propri cari condividendo una breve registrazione audio e di recente il Garante Privacy italiano aveva deciso di aprire un fascicolo su FakeYou, servizio che permette la generazione di spezzoni audio a partire da testo scritto usando le voci di personaggi più o meno famosi.

Ti consigliamo anche

Link copiato negli appunti