Sto cercando indicazioni su quali tecniche/algoritmi dovrei ricercare per risolvere il seguente problema. Al momento ho un algoritmo che raggruppa mp3 dal suono simile usando impronte digitali acustiche. In ogni cluster, ho tutti i metadati diversi (canzone/artista/album) per ogni file. Per quel cluster, mi piacerebbe scegliere i "migliori" metadati canzone/artista/album che corrispondono a una riga esistente nel mio database, o se non c'è la migliore corrispondenza, decidere di inserire una nuova riga.Algoritmo di apprendimento automatico per la classificazione dei dati.
Per un cluster, non v'è in genere un po 'di metadati corretti, ma i singoli file sono molti tipi di problemi:
- Artista/canzoni sono completamente misnamed, o semplicemente un po' mispelled
- l'artista/canzone/album è mancante, ma il resto delle informazioni è lì
- la canzone è in realtà una registrazione dal vivo, ma solo alcuni dei file nel cluster sono etichettati come tali.
- ci può essere molto poco metadati, in alcuni casi, solo il nome del file, che potrebbe essere artista - song.mp3, o artista - album - song.mp3, o un'altra variazione
Un semplice voto funziona l'algoritmo abbastanza bene, ma mi piacerebbe avere qualcosa su cui posso allenare una grande quantità di dati che potrebbe raccogliere più sfumature di quello che ho adesso. Qualsiasi link a documenti o progetti simili sarebbe molto apprezzato.
Grazie!
Grande domanda - Sono interessato a vedere cosa viene fuori qui. Mi chiedo se forse un qualche tipo di approccio per l'apprendimento delle decisioni possa aiutare a identificare la canzone "migliore" in un cluster? Ovviamente le pagine wiki sull'apprendimento non supervisionato o sull'apprendimento automatico possono darvi qualche altra ispirazione. – awshepard
Prova a guardare alcune delle lezioni qui: [Corso di apprendimento automatico] (https://www.coursera.org/course/ml) poiché coprono molte tecniche applicabili. – mlepage