Riconoscimento altoparlante Python

Ho un file audio (conversazione telefonica registrata di 2 persone). Ho bisogno di separare automaticamente le voci di 2 altoparlanti. Sono nuovo nel riconoscimento vocale e ho visto il modulo wave di python ma non ho trovato alcuna informazione fruttuosa.Riconoscimento altoparlante Python

Si prega di aiutare come iniziare. Inoltre, per favore suggeriscimi librerie python gratuite che mi aiuteranno a risolvere il problema.

fonte

2011-09-05 PJC

Inizia con numpy, e guarderei gli spettrografi (fondamentalmente un FFT a rotazione) come un buon metodo per distinguere diverse voci in una registrazione audio.

Ecco la funzione spettrogramma in Matplotlib:

http://matplotlib.sourceforge.net/api/pyplot_api.html#matplotlib.pyplot.specgram

Suggerirei Python(x,y) se siete appena iniziato su una piattaforma Windows.

fonte

2011-09-05 14:15:17

Dai un'occhiata alla libreria CMU Sphinx Python. È sviluppato in Java, quindi penso che le librerie Python siano solo wrapper per questo. Il progetto ha un sacco di ricerche in corso dietro di esso.

wiki ufficiale: http://cmusphinx.sourceforge.net/wiki/

tutorial di avvio rapido per Linux qui: http://probing.wikidot.com/speech-recognition-using-sphinx3-and-python

fonte

2011-09-05 16:08:58 bcoughlan

Partenza sciKits Talkbox: http://projects.scipy.org/scikits/wiki/Talkbox

tutorial Unfortunutly sono molto limitate: http://www.ar.media.kyoto-u.ac.jp/members/david/softwares/talkbox/talkbox_doc/intro.html

fonte

2013-06-14 16:20:36 billwild

Il compito della separazione degli altoparlanti non è un compito di riconoscimento vocale, è un compito di riconoscimento degli altoparlanti. Nella comunità del discorso questo compito è anche noto come diarizzazione dell'altoparlante. Ci sono diversi pacchetti per diarization altoparlante e il riconoscimento speaker disponibili per Python:

SIDEKIT from LIUM

Bob toolkit from Idiap

Speaker diarization from ISCI

Nel caso in cui non si è limitato a Python, ci sono altri:

LIUM speaker diarization

Speaker recognition setup in Kaldi. Include i-vettori basati su DNN all'avanguardia.

fonte

2013-06-14 18:24:35

Riconoscimento altoparlante Python

risposta

Problemi correlati