6

Sto cercando un modo per abbinare un set di dati conosciuto, diciamo un elenco di MP3 o file wav, ognuno dei quali è un esempio di qualcuno che parla. A questo punto so che il file ABC è di persona X che parla.CMU Sfinge per riconoscimento vocale/altoparlante

Vorrei quindi fare un altro esempio e fare un po 'di abbinamento vocale per mostrare a chi è più probabile questa voce, data la serie di dati conosciuta.

Inoltre, non mi interessa necessariamente ciò che la persona ha detto, finché riesco a trovare una corrispondenza, cioè non ho bisogno di alcuna trascrizione o altro.

Sono consapevole che la Sphinx CMU non esegue il riconoscimento vocale, ed è principalmente utilizzata per la voce in testo, ma ho visto altri sistemi, ad esempio: Diatizzazione dell'altoparlante LIUM (http: //cmusphinx.sourceforge. net/wiki/speakerdiarization) o il progetto VoiceID (https://code.google.com/p/voiceid/) che usa CMU come base per questo tipo di lavoro.

Se devo utilizzare la CMU, come posso eseguire la corrispondenza vocale?

Inoltre, se CMU Sphinx non è la migliore struttura, c'è un altro che è open source?

+1

Qualsiasi seguito? Cos'hai fatto? Hai avuto successo? – Dariusz

risposta

2

Questo è un argomento che sarebbe adeguato in complessità per una tesi di dottorato. Non ci sono sistemi validi e affidabili al momento.

L'attività per cui sei impegnato è molto complessa. Come dovresti avvicinarti dipende dalla tua situazione.

  • hai un numero limitato di persone? quanti?
  • quanti dati hai per ogni persona?

Se avete pochissime persone per riconoscere, si può tentare qualcosa di semplice come ottenere formants di quelle persone e confrontandoli con un campione.

In caso contrario, è necessario contattare alcuni docenti universitari che lavorano sull'argomento o sul banco della giuria come se fossero una soluzione. In ogni caso, come ho detto, è un problema difficile.

+0

Sono curioso di sapere che non ci sono sistemi validi e affidabili. [questo documento] (http://publications.idiap.ch/downloads/papers/2012/Vijayasenan_INTERSPEECH2012_2012.pdf) menziona quattro quadri di diarizzazione e lo strumento LIUM (dal 2009) menzionato dall'OP sembra abbastanza ben utilizzato, ad es. dalla comunità di Sfinge. Questi approcci esistenti hanno limitazioni specifiche? –

+0

Avrei dovuto scrivere "Non ne conosco nessuno". Comunque, hai visto questi risultati? Non sono grandiosi. L'uso della voce come caratteristica biometrica è ancora molto inaffidabile. – Dariusz

Problemi correlati