* SPOILER: RISPOSTA non sia inferiore a *
Dato che ho intenzione di fare qualcosa di simile a questo, ho fatto una piccola ricerca per conto mio in materia, e ha scoperto che ci sono alcune tecniche numeriche esatte che POTREBBE essere in grado di farlo.
Elencherò i riferimenti e consentirò all'utente di decidere se è la soluzione giusta. Tutto ha a che fare con l'estrazione delle caratteristiche audio vocali, e trovandovi le caratteristiche vocali SONO nei dati audio.
si può iniziare qui, ma in realtà non porta da nessuna parte, ma potrebbe essere utile per vedere che cosa siete in :)
http://en.wikipedia.org/wiki/Voice_activity_detection
Poi, alcuni articoli su riconoscimento del parlatore:
Qui, c'è un primer che è necessario conoscere sull'estrazione della funzione mel frequency cepstral coefficients
(MFCC).
http://www.speaker-recognition.org/navAlg.html
Quindi, per esempio, questo:
http://www.iccce.co.in/Papers/ICCCECE358.pdf
so che nessuno di loro conducono direttamente alla soluzione al vostro problema, ma almeno sarete in grado di cogliere la dimensione del mostro con cui avrai a che fare.
EDIT: Strutture
ho utilizzare C# per qualcosa legato a questo, e in un primo momento ho usato l'algoritmo FFT roll-my-own, poi si trasferisce a biblioteca ILNumerics che utilizza libreria matematica Intel, e in seguito sostituito tutto ciò che con fftw.
http://ilnumerics.net/ (hm, era libero per volta)
http://software.intel.com/en-us/articles/intel-mkl/ Intel Math Kernel
http://www.fftw.org/ (una semplice pagina web, ma le prestazioni BRUTALE)
EDIT: Il nuovo motore di FFT
Poiché stavo trasferendo parte del mio codice ad Android, ho avuto una grande esperienza lavorativa con un uomo che ha fatto qualcosa di assolutamente impossibile - la libreria FFT è ancora più veloce di FFTW: FFTS. La mia comprensione della sua magia è limitata, ma usa le codette per varie architetture di processore e supera ogni libreria che ci sia.
è umano cantare. – Stpn
sai che gli esseri umani possono fare una vasta gamma di cose usando la loro voce, tra cui Beatboxing, Growling, "Normal" Singing, Throat Singing e persino l'imitazione della voce animale. Tutto questo potrebbe accadere durante un _song_, quindi potenzialmente essere _vocals_, o no. Certamente, questa è una domanda interessante, ma per favore sii specifica nella tua domanda, e anche [affermi quanto il tuo sforzo di ricerca ha portato fino a questo punto] (http://meta.stackexchange.com/a/128553/179891). – moooeeeep
commento valido sulla ricerca. Sicuramente aggiornerò una volta arrivato a destinazione .. Prima di ottenere il feedback dalle risposte di seguito, stavo pensando di fare solo il rilevamento del pitch di una frequenza di voce umana (inizia da circa 85Hz - https://en.wikipedia.org/wiki/Voice_frequency). Ma chiaramente i collegamenti dal basso possono fornire ulteriori informazioni in merito. Per quanto riguarda la voce, sono interessato a qualsiasi tipo di suono prodotto dalla voce umana. – Stpn