Come devono essere rappresentati i dati audio stereo (2 canali) per FFT? TiCome rappresentare i dati audio stereo per FFT
A. prendere la media dei due canali e si assegna al componente reale di un numero e lasciare il componente immaginaria 0.
B. Assegnare un canale alla componente reale e l'altro canale di la componente imag.
C'è un motivo per fare l'uno o l'altro? Ho cercato nel web ma non ho trovato nessuna risposta definitiva su questo.
Sto facendo una semplice analisi spettrale e, non sapendo niente, ho usato l'opzione A). Questo mi ha dato un risultato inaspettato, mentre l'opzione B è andata come previsto. Ecco alcuni ulteriori dettagli:
Ho un file WAV di un pianoforte "medio-C". Per definizione, il C medio è 260Hz, quindi mi aspetto che la frequenza di picco sia a 260 Hz e picchi più piccoli alle armoniche. Ho confermato questo visualizzando lo spettro tramite un software di editing audio (Sound Forge). Ma quando ho preso la FFT da sola, con l'opzione A), il picco era a 520Hz. Con l'opzione B), il picco era a 260Hz.
mi sto perdendo qualcosa? La spiegazione che ho fornito fino ad ora è che la rappresentazione di dati stereo usando una componente reale e immagistica implica che i due canali sono indipendenti, il che, suppongo, non lo sono, e quindi il disordine.
In effetti ha molto senso. Vedere la risposta di questa domanda per i dettagli: http://stackoverflow.com/questions/14477454/apply-fft-to-a-both-channels-of-a-stereo-signal-separatamente –