Sto lavorando ad alcuni software per bambini e sto cercando di aggiungere la possibilità per il software di rispondere a un numero di suoni non vocali. Ad esempio battendo, abbaiando, fischiettando, rumori di scoreggia, ecc.Software non vocale o software di riconoscimento del suono?
Ho usato CMU Sphinx e Windows Speech API in passato, tuttavia, per quanto posso dire, nessuno di questi ha alcun supporto per non- rumori del discorso, e in effetti credo che li filtri attivamente.
In generale sto cercando "Come faccio ad avere questa funzionalità" ma ho il sospetto può essere utile se rompo il basso in tre domande che sono le mie supposizioni su cosa cercare per il prossimo:
- Esiste un modo per utilizzare uno dei principali motori di riconoscimento vocale per riconoscere i suoni non di parole modificando un modello acustico o un lessico di pronuncia?
- (oppure) Esiste già una libreria esistente per il riconoscimento del rumore senza parole?
- (oppure) Ho un po 'di familiarità con Hidden Markov Models e la tecnologia di base del riconoscimento vocale del college, ma non è una buona stima su quanto sarebbe difficile creare un rumore/riconoscimento del suono molto piccolo da zero (supponiamo < 20 rumori da riconoscere). Se 1) e 2) falliscono, qualche stima su quanto tempo impiegherebbe a tirare il mio?
Grazie
[La mia risposta] (http://stackoverflow.com/q/8285673/22364) alla domanda [Identificazione in tempo reale di suoni non vocali e non musicali da un flusso di microfono continuo] (http: // stackoverflow.com/q/8285673) potrebbe essere rilevante. –