2010-11-10 17 views
11

Ho bisogno di trascrivere automaticamente alcuni brevi MP3 come parte di una dimostrazione del concetto su cui sto lavorando. Attualmente sto esaminando soluzioni cloud o servizi API Web per inviare l'MP3 come una semplice richiesta HTTP e ricevere una trascrizione.API riconoscimento vocale

L'unica soluzione gratuita/open source che ho trovato here, ma le demo non sembrano funzionare (almeno non sui file che ho bisogno di trascrivere). Ho trovato alcune soluzioni aziendali per i call center, ma finora nulla posso semplicemente integrare in un progetto.

Sono disponibili servizi di riconoscimento vocale basati sul Web? Uno che è in grado di filtrare piccoli rumori sarebbe un vantaggio.

+0

Vedere anche questa domanda: http://stackoverflow.com/questions/3113864/server-side-voice-recognition –

risposta

1

This potrebbe essere una buona corrispondenza. Inoltre, il loro profilo techcrunch (See this) elenca concorrenti come: SimulScribe, SpinVox, Vlingo, Nuance, Microsoft, Google Alcuni di questi collegamenti potrebbero essere utili.

Vlingo, Bing e Google hanno i riconoscitori nel cloud, ma non credo che li rendano programmabili pubblicamente. Credo che siano accessibili solo dai loro clienti autorizzati.

Per un proof of concept (e basso volume), hai considerato solo l'utilizzo dei motori vocali desktop di Windows 7? What is the difference between System.Speech.Recognition and Microsoft.Speech.Recognition? potrebbe essere utile. I riconoscitori per desktop MS vengono forniti con una grammatica di dettatura e sembra che sia ciò di cui avrai bisogno.

+0

Yapme e un paio di altri servizi che ho trovato dopo l'invio, si rivolgono a grandi clienti. Li ho inviati via email (che è l'unico modo per ottenere informazioni API, prezzi o accesso) ma non li ho mai più ascoltati. i concorrenti elencati forniscono soluzioni di call center, come ho detto nel mio post. Non ho esaminato i motori vocali di microsoft, perché il mio progetto dipende dal fatto di essere in grado di farlo da script e lavoro in PHP/Python su un server Linux. Potrei fare alcuni test di base usando questo, ma avrei bisogno di una soluzione diversa. – MrGlass

+0

-1 In questo momento sembra che yapme.com sia stato interrotto. –

+2

In realtà, stanno interrompendo il servizio di trascrizione di voicemail, ma non è chiaro cosa stia succedendo con le loro API di riconoscimento cloud. Sembra che siano stati acquistati da Amazon e quindi la gente sta ipotizzando che Amazon possa aggiungere i propri servizi di reco ai servizi Amazons Cloud - http://www.theatlantic.com/technology/archive/2011/11/i-see-your-siri -e-raise-you-a-yap-amazon-quietly-snaps-up-speech-recognition-startup/248165/(ti rendi conto che il mio post che dici "-1" è di oltre un anno ...) –

1

Inoltre è possibile provare il motore di riconoscimento vocale di Windows 7 per produrre i sottotitoli. Here è lo strumento per questo.

+0

In che modo il collegamento è correlato al riconoscimento vocale? – matteo

+0

Questo strumento open source utilizza il motore di riconoscimento vocale di Windows per analizzare un file .wav e quindi estrarre un file di sottotitoli da esso. – VahidN

+0

È divertente che l'elenco delle funzioni non menzioni nemmeno una funzione così potente. – matteo

5

Qui è an unofficial method per accedere alla funzionalità ASR di Google. Ho appena provato su Yesterday e funziona ancora - puoi ottenere l'output ASR in stile JSON con parole e il punteggio di confidenza associato da un audio FLC campionato a 16 KHz.

+0

Questa è una scoperta davvero interessante. C'è qualche informazione su un limite di velocità? – MrGlass

+0

Si prega di convertire i file audio in FLAC 16K Hz. Poiché questa non è una soluzione ufficiale di Google, ci sono molte incognite :) – Leo5188

+3

Verificato, questo metodo non funziona più ora. Tuttavia, Google ha pubblicato la versione V2 di esso, richiedendo una chiave API e con una quota su di essa, che è molto bassa.Un'implementazione può essere trovata qui: https://github.com/gillesdemey/google-speech-v2 –

Problemi correlati