E 'possibile utilizzare API di riconoscimento vocale di Google per ottenere una trascrizione di un file audio (WAV, MP3, ecc), facendo una richiesta al http://www.google.com/speech-api/v2/recognize?...
API di riconoscimento vocale Google: timestamp per ogni parola?
Esempio: ho detto "uno due tre per cinque" in un File WAV. API di Google mi dà questo
{u'alternative': [{u'transcript': u'12345'}, {u'transcript': u'1 2 3 4 5'},
{u'transcript': u'one two three four five'}], u'final': True}
Domanda: è possibile ottenere il tempo (in secondi) in cui ogni parola è stato detto?
Con il mio esempio:
['one', 0.23, 0.80], ['two', 1.03, 1.45], ['three', 1.79, 2.35], etc.
cioè la parola "uno" è stato detto tra il tempo 00: 00: 00.23 e 00: 00: 00,80,
la parola "due" è stato detto tra 00: 00: 01.03 e 00: 00: 01.45 (in secondi)
PS: ricerca di una API che supporta altre lingue oltre all'inglese, in particolare il francese.
Hm? Afaics google speech api _does_ supporto francese, non è vero? – Ctx
@Ctx sì ma non supporta il timestamp per ogni parola – Basj