Riconoscimento vocale, le API Google Speech disponibili per tutti

Google mette a disposizione di tutti i programmatori le sue API per il riconoscimento automatico del parlato (in 80 lingue differenti) e la sua trascrizione in testo.

Le API Google Speech diventano oggi disponibili per tutti i programmatori che intendano utilizzarle nelle loro applicazioni.
Grazie a queste API è possibile, tra le altre cose, rendere un’app in grado di riconoscere 80 lingue differenti senza alcuna difficoltà e trasformare in testo scritto le parole pronunciate dall’utente.
Il livello di accuratezza è massimo perché le API di Google Speech utilizzano algoritmi di machine learning per “comprendere” il contesto e il “significato” delle frasi. In questo modo, la trascrizione del testo può raggiungere un livello di precisione mai ottenuto in precedenza.
Il sistema, poi, si comporta molto bene anche negli ambienti rumorosi riuscendo a isolare efficacemente il parlato.


Una dimostrazione è disponibile a questo indirizzo e, dalla stessa pagina, gli sviluppatori possono richiedere l’accesso ai servizi messi a disposizione nell’ambito di Google Cloud Platform.

I tecnici di Google mettono in evidenza che le API sono divenute ancora più abili nel riconoscimento dei file audio molto lunghi, offrono la trascrizione testuale in tempi più brevi ed è stato introdotto il supporto per i formati WAV, Opus e Speex.

Per trascrivere il parlato in testo, suggeriamo anche la lettura dell’articolo Riconoscimento vocale, come dettare testi senza installare nulla.

Ti consigliamo anche

Link copiato negli appunti