13

E 'possibile utilizzare API di riconoscimento vocale di Google per ottenere una trascrizione di un file audio (WAV, MP3, ecc), facendo una richiesta al http://www.google.com/speech-api/v2/recognize?...API di riconoscimento vocale Google: timestamp per ogni parola?

Esempio: ho detto "uno due tre per cinque" in un File WAV. API di Google mi dà questo

{u'alternative': [{u'transcript': u'12345'}, {u'transcript': u'1 2 3 4 5'}, 
{u'transcript': u'one two three four five'}], u'final': True} 

Domanda: è possibile ottenere il tempo (in secondi) in cui ogni parola è stato detto?

Con il mio esempio:

['one', 0.23, 0.80], ['two', 1.03, 1.45], ['three', 1.79, 2.35], etc. 

cioè la parola "uno" è stato detto tra il tempo 00: 00: 00.23 e 00: 00: 00,80,
la parola "due" è stato detto tra 00: 00: 01.03 e 00: 00: 01.45 (in secondi)

PS: ricerca di una API che supporta altre lingue oltre all'inglese, in particolare il francese.

+0

Hm? Afaics google speech api _does_ supporto francese, non è vero? – Ctx

+0

@Ctx sì ma non supporta il timestamp per ogni parola – Basj

risposta

8

Non è possibile con Google API.

Se volete timestamp di parole, è possibile utilizzare altre API, ad esempio:

CMUSphinx - riconoscimento vocale offline libero API

SpeechMatics SaaS speech recognition API

Speech Recognition API from IBM

+0

Grazie! Hai provato queste 3 API? Sono buoni come quelli di Google? Ogni giorno sono stupito di come il riconoscimento vocale di Google sia potente. (Parlo (ad alta voce) i miei messaggi di testo sul mio telefono Android, e il telefono non commette quasi alcun errore!) – Basj

+0

Dovrebbero essere comparabili in termini di precisione. –

+0

Sembra che nessuno di loro supporti la lingua francese, purtroppo. – Basj