CMU Sfinge per riconoscimento vocale/altoparlante

Sto cercando un modo per abbinare un set di dati conosciuto, diciamo un elenco di MP3 o file wav, ognuno dei quali è un esempio di qualcuno che parla. A questo punto so che il file ABC è di persona X che parla.CMU Sfinge per riconoscimento vocale/altoparlante

Vorrei quindi fare un altro esempio e fare un po 'di abbinamento vocale per mostrare a chi è più probabile questa voce, data la serie di dati conosciuta.

Inoltre, non mi interessa necessariamente ciò che la persona ha detto, finché riesco a trovare una corrispondenza, cioè non ho bisogno di alcuna trascrizione o altro.

Sono consapevole che la Sphinx CMU non esegue il riconoscimento vocale, ed è principalmente utilizzata per la voce in testo, ma ho visto altri sistemi, ad esempio: Diatizzazione dell'altoparlante LIUM (http: //cmusphinx.sourceforge. net/wiki/speakerdiarization) o il progetto VoiceID (https://code.google.com/p/voiceid/) che usa CMU come base per questo tipo di lavoro.

Se devo utilizzare la CMU, come posso eseguire la corrispondenza vocale?

Inoltre, se CMU Sphinx non è la migliore struttura, c'è un altro che è open source?

fonte

2013-01-10 Dominic

Qualsiasi seguito? Cos'hai fatto? Hai avuto successo? – Dariusz

Questo è un argomento che sarebbe adeguato in complessità per una tesi di dottorato. Non ci sono sistemi validi e affidabili al momento.

L'attività per cui sei impegnato è molto complessa. Come dovresti avvicinarti dipende dalla tua situazione.

hai un numero limitato di persone? quanti?
quanti dati hai per ogni persona?

Se avete pochissime persone per riconoscere, si può tentare qualcosa di semplice come ottenere formants di quelle persone e confrontandoli con un campione.

In caso contrario, è necessario contattare alcuni docenti universitari che lavorano sull'argomento o sul banco della giuria come se fossero una soluzione. In ogni caso, come ho detto, è un problema difficile.

fonte

2013-02-11 09:03:07 Dariusz

Sono curioso di sapere che non ci sono sistemi validi e affidabili. [questo documento] (http://publications.idiap.ch/downloads/papers/2012/Vijayasenan_INTERSPEECH2012_2012.pdf) menziona quattro quadri di diarizzazione e lo strumento LIUM (dal 2009) menzionato dall'OP sembra abbastanza ben utilizzato, ad es. dalla comunità di Sfinge. Questi approcci esistenti hanno limitazioni specifiche? –

Avrei dovuto scrivere "Non ne conosco nessuno". Comunque, hai visto questi risultati? Non sono grandiosi. L'uso della voce come caratteristica biometrica è ancora molto inaffidabile. – Dariusz

CMU Sfinge per riconoscimento vocale/altoparlante

risposta

Problemi correlati