2011-08-23 18 views
9

Come parte della mia domanda, sto cercando di aggiungere il riconoscimento vocale, ma non proprio nel senso tradizionale. Ho un sacco di testi (divisi in versi) che sono cantati da qualcuno, e l'idea è di trovare quale versetto è attualmente cantato in modo che possa essere visualizzato sullo schermo.Riconoscimento vocale continuo mentre si canta?

Ho giocato con la sfinge e ho creato e lavorato alcuni esempi di base, ma mentre sembra esserci molta documentazione sulla registrazione del testo parlato in cui è possibile attendere un ritardo quindi elaborare il risultato, posso Trovo molto sull'idea di riconoscere le frasi continuamente. Questo è ovviamente prima di arrivare alla parte in cui le parole vengono cantate e non pronunciate!

Qualcuno ha avuto qualche esperienza con questo, e se è così ovunque che fornirebbe un buon punto di partenza? O è quello che sto cercando di raggiungere in modo troppo ambizioso con la sfinge e non funzionerà mai davvero? Sono aperto a guardare altre librerie, ma devono essere libere, e la sfinge è stata la più discussa di quelle che ho potuto approfondire.

+1

Immagino che un grosso problema potrebbe essere quello di ottenere un set di allenamento adatto, o il boot-strap da uno di dimensioni limitate. – Eamorr

+2

Qualcuno potrebbe spiegare il motivo del downvote? – berry120

+0

Ggogle si imbatte in [questo articolo] (http://www.hindawi.com/journals/asmp/2010/546047/) quando uso la tua domanda in una ricerca. Non ho molto aiuto quando sono alla ricerca di una libreria specifica, temo, ma potrebbe essere utile per metterti in pista se hai bisogno di costruire qualcosa da te. – Wivani

risposta

3

È perfettamente possibile riconoscere il parlato non appena viene pronunciato con un breve ritardo. Inoltre se più o meno capisci cosa ti aspetti di ottenere. Questo è chiamato "risultato parziale" ed è disponibile in tutti i decodificatori CMUSphinx tramite API. Fondamentalmente è possibile recuperare le ipotesi in corso.

C'è un piccolo problema da considerare su come stabilizzare questo risultato (come estrarre la parte stabile di esso), ma questa tecnica è chiamata backtracking e potrebbe essere facilmente implementato

per il canto, data la musica può essere filtrato è anche fattibile.

Problemi correlati