OpenAI aggiorna le API audio realtime con modelli per voce e traduzioni

OpenAI introduce GPT-Realtime-2, Translate e Whisper nella propria API audio realtime: cosa cambia per gli utenti?
OpenAI aggiorna le API audio realtime con modelli per voce e traduzioni

La corsa verso interfacce vocali realmente conversazionali entra in una nuova fase.

OpenAI ha annunciato una serie di aggiornamenti alla propria API audio in tempo reale, introducendo tre modelli progettati per trascrizione live, traduzione simultanea e interazioni vocali con capacità di ragionamento avanzate.

Il mercato delle applicazioni voice AI cresce rapidamente: contact center, piattaforme educative, software per meeting e strumenti creator stanno aumentando gli investimenti in agenti vocali capaci di comprendere il linguaggio naturale senza latenza percepibile.

Dal debutto di Whisper nel 2022 fino all’arrivo delle API realtime nel 2024, OpenAI ha progressivamente spostato l’attenzione dal semplice speech-to-text verso modelli multimodali in grado di ascoltare, interpretare e rispondere in tempo reale.

La differenza rispetto ai sistemi tradizionali sta soprattutto nella riduzione dei passaggi intermedi: meno conversioni, meno orchestrazione esterna e tempi di risposta sensibilmente più bassi. La mossa rafforza anche la competizione con i servizi speech AI di Google Cloud, AWS e Microsoft Azure, tutti impegnati a integrare modelli generativi nelle rispettive offerte vocali.

I nuovi modelli sono già disponibili all’interno della piattaforma API e puntano a semplificare la creazione di applicazioni vocali enterprise, riducendo la necessità di assemblare stack separati di speech recognition, traduzione e generazione vocale.

GPT-Realtime-2: ragionamento e conversazione continua

Il componente principale del pacchetto è GPT-Realtime-2, definito da OpenAI come il primo modello vocale realtime con capacità di reasoning paragonabili a GPT-5.

Il modello può mantenere memoria della conversazione, richiamare strumenti esterni tramite tool calling e gestire richieste articolate durante sessioni prolungate. A differenza dei sistemi tradizionali, che lavorano in modo sequenziale (prima trascrizione, poi interpretazione, infine risposta), GPT-Realtime-2 è progettato per reagire mentre l’utente sta ancora parlando.

Per gli sviluppatori questo si traduce in assistenti vocali capaci di eseguire prenotazioni, recuperare dati aziendali o gestire ticket senza interrompere continuamente il dialogo. Tra le aziende che hanno partecipato ai test iniziali figurano Zillow, Priceline e Deutsche Telekom.

Traduzione live, trascrizione streaming e nuovi rischi

Accanto al modello principale, OpenAI ha presentato GPT-Realtime-Translate, con supporto a oltre 70 lingue in ingresso e 13 in uscita, pensato per customer support internazionale, eventi live e piattaforme collaborative.

Il terzo componente, GPT-Realtime-Whisper, è invece una variante streaming di Whisper per la trascrizione live: produce testo mentre l’utente parla e può integrarsi in sistemi di sottotitolazione, verbalizzazione meeting e CRM capaci di estrarre entità e intenzioni dell’utente in tempo reale.

Sul fronte dei costi, GPT-Realtime-2 viene tariffato a 32 dollari per milione di token audio in input; Translate e Whisper rispettivamente a 0,034 e 0,017 dollari al minuto. L’espansione vocale porta però nuove criticità: conversazioni sintetiche sempre più credibili aumentano i rischi di phishing e social engineering.

OpenAI dichiara di aver integrato sistemi di sicurezza per impedire usi fraudolenti, ma il monitoraggio in tempo reale e il watermarking audio stanno diventando requisiti standard nelle implementazioni enterprise.

Ti consigliamo anche

Link copiato negli appunti