Sto cercando un modo per abbinare un set di dati conosciuto, diciamo un elenco di MP3 o file wav, ognuno dei quali è un esempio di qualcuno che parla. A questo punto so che il file ABC è di persona X che parla.CMU Sfinge per riconoscimento vocale/altoparlante
Vorrei quindi fare un altro esempio e fare un po 'di abbinamento vocale per mostrare a chi è più probabile questa voce, data la serie di dati conosciuta.
Inoltre, non mi interessa necessariamente ciò che la persona ha detto, finché riesco a trovare una corrispondenza, cioè non ho bisogno di alcuna trascrizione o altro.
Sono consapevole che la Sphinx CMU non esegue il riconoscimento vocale, ed è principalmente utilizzata per la voce in testo, ma ho visto altri sistemi, ad esempio: Diatizzazione dell'altoparlante LIUM (http: //cmusphinx.sourceforge. net/wiki/speakerdiarization) o il progetto VoiceID (https://code.google.com/p/voiceid/) che usa CMU come base per questo tipo di lavoro.
Se devo utilizzare la CMU, come posso eseguire la corrispondenza vocale?
Inoltre, se CMU Sphinx non è la migliore struttura, c'è un altro che è open source?
Qualsiasi seguito? Cos'hai fatto? Hai avuto successo? – Dariusz