2012-05-31 22 views
13

quale sarebbe il modo migliore per rilevare dove inizia la voce in una canzone? Ho solo bisogno dell'ora di inizio per la voce. La precisione estrema non è necessaria. La velocità è più importante.Rilevare dove la voce inizia in una canzone?

Eventuali indizi per documenti o algoritmi (se esistono) sono molto apprezzati .. Anche alla ricerca di raccomandazioni su quale framework/linguaggio si adatta meglio per questo.

+0

è umano cantare. – Stpn

+2

sai che gli esseri umani possono fare una vasta gamma di cose usando la loro voce, tra cui Beatboxing, Growling, "Normal" Singing, Throat Singing e persino l'imitazione della voce animale. Tutto questo potrebbe accadere durante un _song_, quindi potenzialmente essere _vocals_, o no. Certamente, questa è una domanda interessante, ma per favore sii specifica nella tua domanda, e anche [affermi quanto il tuo sforzo di ricerca ha portato fino a questo punto] (http://meta.stackexchange.com/a/128553/179891). – moooeeeep

+0

commento valido sulla ricerca. Sicuramente aggiornerò una volta arrivato a destinazione .. Prima di ottenere il feedback dalle risposte di seguito, stavo pensando di fare solo il rilevamento del pitch di una frequenza di voce umana (inizia da circa 85Hz - https://en.wikipedia.org/wiki/Voice_frequency). Ma chiaramente i collegamenti dal basso possono fornire ulteriori informazioni in merito. Per quanto riguarda la voce, sono interessato a qualsiasi tipo di suono prodotto dalla voce umana. – Stpn

risposta

7

* SPOILER: RISPOSTA non sia inferiore a *

Dato che ho intenzione di fare qualcosa di simile a questo, ho fatto una piccola ricerca per conto mio in materia, e ha scoperto che ci sono alcune tecniche numeriche esatte che POTREBBE essere in grado di farlo.

Elencherò i riferimenti e consentirò all'utente di decidere se è la soluzione giusta. Tutto ha a che fare con l'estrazione delle caratteristiche audio vocali, e trovandovi le caratteristiche vocali SONO nei dati audio.

si può iniziare qui, ma in realtà non porta da nessuna parte, ma potrebbe essere utile per vedere che cosa siete in :)

http://en.wikipedia.org/wiki/Voice_activity_detection

Poi, alcuni articoli su riconoscimento del parlatore:

Qui, c'è un primer che è necessario conoscere sull'estrazione della funzione mel frequency cepstral coefficients (MFCC).

http://www.speaker-recognition.org/navAlg.html

Quindi, per esempio, questo:

http://www.iccce.co.in/Papers/ICCCECE358.pdf

so che nessuno di loro conducono direttamente alla soluzione al vostro problema, ma almeno sarete in grado di cogliere la dimensione del mostro con cui avrai a che fare.

EDIT: Strutture

ho utilizzare C# per qualcosa legato a questo, e in un primo momento ho usato l'algoritmo FFT roll-my-own, poi si trasferisce a biblioteca ILNumerics che utilizza libreria matematica Intel, e in seguito sostituito tutto ciò che con fftw.

http://ilnumerics.net/ (hm, era libero per volta)

http://software.intel.com/en-us/articles/intel-mkl/ Intel Math Kernel

http://www.fftw.org/ (una semplice pagina web, ma le prestazioni BRUTALE)

EDIT: Il nuovo motore di FFT

Poiché stavo trasferendo parte del mio codice ad Android, ho avuto una grande esperienza lavorativa con un uomo che ha fatto qualcosa di assolutamente impossibile - la libreria FFT è ancora più veloce di FFTW: FFTS. La mia comprensione della sua magia è limitata, ma usa le codette per varie architetture di processore e supera ogni libreria che ci sia.

0

L'esame della potenza del segnale non è d'aiuto per la musica pop. Questo perché la musica pop contemporanea è molto compressa. Ciò significa che i compressori di livello audio sono applicati in più fasi del processo di produzione per far sembrare la canzone più forte. Fare riferimento al termine "guerra del loudness" per maggiori informazioni. Ad esempio fare riferimento alla canzone "fuochi d'artificio" di Caty Perry.Il livello del volume è quasi costante su tutta la canzone.

+0

Questo commento non dovrebbe essere una risposta. –

+0

@ Pier-alexandreBouchard E proprio per questo motivo c'è una freccia in giù proprio lì :) – AndyPerfect

+0

Come downvotare quando non ha nessuna risposta :) –

Problemi correlati