La traduzione vocale in tempo reale compie un salto significativo con Gemini 3.5 Live Translate, il nuovo modello audio sviluppato da Google per eliminare le barriere linguistiche durante conversazioni, riunioni e contenuti multimediali.
La compagnia di Mountain View lavora sulla traduzione automatica dal 2006, anno in cui nacque Google Traduttore, che oggi elabora oltre un trilione di parole al mese. L’obiettivo di questa evoluzione va oltre la semplice conversione testuale: riprodurre conversazioni naturali tra persone che parlano lingue diverse, preservando ritmo, intonazione e caratteristiche vocali originali.
Gemini 3.5 Live Translate: come funziona
A differenza dei traduttori vocali tradizionali, che attendono la conclusione di una frase prima di elaborarla, Gemini 3.5 Live Translate utilizza un’elaborazione audio in streaming che produce la traduzione quasi in tempo reale, restando soltanto pochi secondi dietro al parlante originale.
Il modello riconosce oltre 70 lingue e genera un parlato sintetico che conserva intonazione, accento, velocità e tonalità della voce, riducendo sensibilmente l’effetto artificiale tipico dei traduttori vocali di precedente generazione. Dal punto di vista tecnico, il sistema bilancia due esigenze normalmente in conflitto: raccogliere abbastanza contesto per garantire una traduzione accurata e mantenere una latenza sufficientemente bassa da non interrompere il flusso naturale del dialogo.
La novità interessa due piattaforme con centinaia di milioni di utenti attivi: Google Traduttore e Google Meet. Per quest’ultima si tratta di un aggiornamento particolarmente rilevante, dal momento che l’attuale sistema di traduzione integrato supporta un numero limitato di lingue e opera principalmente con l’inglese come lingua di riferimento. Con Gemini 3.5 Live Translate, Meet arriverà a supportare oltre 2.000 combinazioni linguistiche all’interno della stessa videoconferenza, permettendo a ogni partecipante di parlare nella propria lingua senza dover passare obbligatoriamente dall’inglese come lingua ponte.
Google prevede anche modifiche all’interfaccia di Meet per semplificare l’accesso alla funzione. Il rilascio partirà con una preview privata riservata a clienti business di Google Workspace, con un’espansione più ampia prevista nel corso del 2026.
API e sicurezza audio con SynthID
Nell’app Google Traduttore per Android e iOS, gli utenti potranno sfruttare Live Translate per ricevere traduzioni vocali in tempo reale tramite cuffie cablate o wireless compatibili.
Su Android arriva inoltre una modalità chiamata listening mode: in assenza di auricolari, la traduzione viene riprodotta direttamente dall’altoparlante auricolare dello smartphone, come durante una normale telefonata, pensata per situazioni come visite guidate, conferenze o conversazioni improvvisate in viaggio.
Gemini 3.5 Live Translate è disponibile anche in anteprima pubblica attraverso la Gemini Live API e Google AI Studio, consentendo agli sviluppatori di integrare traduzioni vocali in tempo reale nelle proprie applicazioni, con utilizzi che spaziano dai call center internazionali alle piattaforme di streaming e formazione online.
Per affrontare i rischi legati alla diffusione di voci sintetiche sempre più realistiche, Google applica a tutte le tracce audio generate dal sistema un watermark invisibile basato su SynthID, tecnologia che inserisce marcatori impercettibili nel flusso audio per consentire l’identificazione successiva dei contenuti prodotti o modificati tramite AI.