Ho sviluppato un sistema proof of concept per il riconoscimento del suono utilizzando modelli mfcc e markov nascosti. Fornisce risultati promettenti quando collaudo il sistema su suoni noti. Anche se il sistema, quando viene immesso un suono sconosciuto, restituisce il risultato con la corrispondenza più vicina e il punteggio non è così distinto è un suono sconosciuto ad esempio:thresholding del modello markov nascosto
Ho addestrato 3 modelli markov nascosti uno per il parlato, uno per acqua che esce dal rubinetto dell'acqua e una per bussare alla scrivania. Poi li I test su dati invisibili e ottenere i seguenti risultati:
input: speech
HMM\knocking: -1213.8911146444477
HMM\speech: -617.8735676792728
HMM\watertap: -1504.4735097322673
So highest score speech which is correct
input: watertap
HMM\knocking: -3715.7246152783955
HMM\speech: -4302.67960438553
HMM\watertap: -1965.6149147201534
So highest score watertap which is correct
input: knocking
HMM\filler -806.7248912250212
HMM\knocking: -756.4428782636676
HMM\speech: -1201.686687761133
HMM\watertap: -3025.181144273698
So highest score knocking which is correct
input: unknown
HMM\knocking: -4369.1702184688975
HMM\speech: -5090.37122832872
HMM\watertap: -7717.501505674925
Qui l'ingresso è un suono sconosciuto, ma restituisce comunque il valore più simile come non esiste un sistema di filtraggio della soglia/spazzatura.
So che nella parola chiave spotting un OOV (fuori dal vocabolario) il suono può essere filtrato usando un modello di spazzatura o di riempimento ma dice che è addestrato usando un insieme finito di parole sconosciute dove questo non può essere applicato al mio sistema in quanto non conosco tutti i suoni che il sistema può registrare.
Come si risolve un problema simile nel sistema di riconoscimento vocale? E come posso risolvere il mio problema per evitare falsi positivi?
Penso che questo dovrebbe essere spostato su Cross Validated. – ziggystar
Sono d'accordo sul fatto che riceverebbe più (e meglio qualificato) l'attenzione di Cross Validated. Purtroppo, il segnale del pipistrello (noto anche come "abbastanza occhio con permessi abbastanza alti") sembra essere disattivato, quindi Radek avrebbe dovuto metterlo lì. (Il "appartiene a" non ha un'opzione per CV o specifica manualmente dove appartiene. Meh.) – Godeke