2009-12-22 17 views

risposta

8

ho intenzione di rispondere alla parte sul riconoscimento vocale (dato che non so molto di text-to-speech):

http://ecx.images-amazon.com/images/I/4190SZC61CL._BO2,204,203,200_PIsitb-sticker-arrow-click,TopRight,35,-76_AA240_SH20_OU01_.jpg

Questo libro, "Metodi statistici per il riconoscimento vocale" è un classico che spiega i fondamenti matematici del riconoscimento vocale statistico, scritto dal fondatore di quell'area, Frederick Jelinek.

Il concetto più importante da conoscere è Hidden Markov Models. Le persone li usano da decenni nel riconoscimento vocale. Un approccio recente utilizza Conditional Random Fields, vedere paper (PDF) e il toolkit software associato SCARF.

È abbastanza difficile scrivere il proprio riconoscimento vocale. È un'area di ricerca attiva con diverse conferenze scientifiche, ad es. ASRU, Interspeech, ICASSP.

3

Dal momento che lei ha citato MS -

Si dovrebbe solo guardare il sito Microsoft Speech. Contiene molte risorse per trattare la voce, incluso TTS e riconoscimento vocale.

3

Se stai cercando un codice reale, controlla Sphinx, un progetto di riconoscimento vocale open source da CMU. Non è scritto in C++, ma se sei interessato agli algoritmi, è implementato un sacco di cose da cui puoi imparare. (Vorrei anche echeggiare il punto @ dehmann: leggere i modelli markov nascosti.)

6

Entrambe sono aree molto ampie. Informazioni sul riconoscimento: in questo this schema troverai come costruire un sistema di riconoscimento vocale automatico di base. Non è affatto vicino all'inizio della tecnica, ma è qualcosa di realizzabile e funziona. Se vuoi fare qualcosa di più avanzato, leggi i coefficienti di cepstral e i modelli di Markov nascosti. Dai uno sguardo a HTK, è un toolkit ampiamente utilizzato per i modelli Hidden Markov.

Informazioni sul testo: Vorrei dare un'occhiata a Festival.

4

Ci sono più sfingi. I principali attivi sono pocketphinx e sphinx4.

Sphinx4 è scritto in Java. È meglio per le applicazioni desktop e web.

Pocketsphinx è scritto in C. È meglio per i dispositivi incorporati. Ci sono le app per iPhone/Android che la usano.

Suoni come se voleste tascabile. Prova questo tutorial: http://www.speech.cs.cmu.edu/sphinx/tutorial.html

Un posto migliore per chiedere le domande di pocketphinx/sphinx4 è sul forum sourceforge della CMU.

Inoltre, è necessario fornire ulteriori informazioni come ciò che si intende fare.

Per quanto riguarda i libri, la Bibbia di riconoscimento vocale è "Spoken Language Processing"

+0

ci sono istruzioni su come eseguire PocketSphinx su Android? (vedi questa domanda: http://stackoverflow.com/questions/2920870/pocket-sphinx-on-android) – gregm

1

Se siete curiosi di sapere che cosa fare con il vostro riconoscimento vocale fantasia si dovrebbe leggere: Voice Interaction Design di Randy Allen Harris

Fornisce alcuni ottimi consigli su quando utilizzare Voice e come utilizzarlo in un'applicazione.