Sto provando a scrivere uno script Python per cercare file duplicati mp3/4 usando i dati del brano come base per il confronto. La mia situazione coinvolge molti file mp3/4 con nomi di file simili, ma tag ID3 diversi. All'inizio ho provato ad andare in loop e usare md5 per trovare i file duplicati (ignorando i nomi dei file). Questo, ovviamente, non ha funzionato quando i tag ID3 non corrispondevano.Accesso ai dati musicali MP3 usando Python
Di conseguenza, sto cercando un modo per estrarre solo i dati musicali da un mp3/4 per eseguirlo tramite md5 e trovare duplicati. Qual è il modo migliore per farlo?
La musica sarà probabilmente (anche se 'identica') in bitrate diversi (a meno che non si sia certi che tutto sia senza perdite) che renderà inutile un confronto * semplice * 'dati'. Quindi avrai bisogno di una tecnica più avanzata (probabilmente statistica). Sono sicuro che qualcuno su SO sarà in grado di fornire alcuni puntatori ... – ChristopheD
Buon punto, invece di semplice md5 un'analisi di frequenza fft è più appropriata. Tuttavia, il volume può essere diverso. Quindi suppongo che cercheresti una correlazione tra i due fft e ti aspetti una correlazione elevata forse? Diventa complicato perché alcune canzoni possono includere "foresund" - un'introduzione o un discorso - che è difficile da rilevare. –
@Hamish: Mi chiedo se vorrebbe considerarli diversi (ad esempio, un'esecuzione dal vivo di alcune canzoni con, ad esempio, una introduzione vocale contro una registrazione in studio particolare). Dipende davvero da come definite "duplicati", suppongo. Questo sta diventando un problema piuttosto interessante. :) – Faisal