Ho un set di dati di grandi dimensioni che vorrei raggruppare. La mia dimensione di esecuzione della prova è di 2.500 oggetti; quando lo eseguo sul "vero affare" avrò bisogno di gestire almeno 20k oggetti.clustering con similarità coseno
Questi oggetti hanno una somiglianza del coseno tra di loro. Questa somiglianza coseno non soddisfa i requisiti di essere una metrica di distanza matematica; non soddisfa la disuguaglianza triangolare.
Vorrei raggrupparli in un modo "naturale" che mette insieme oggetti simili senza dover specificare in anticipo il numero di cluster che mi aspetto.
Qualcuno sa di un algoritmo che lo farebbe? In realtà, sto solo cercando un algoritmo che non richieda a) una metrica di distanza eb) un numero predefinito di cluster.
Grazie mille!
Questa domanda è stato chiesto prima qui: Clustering from the cosine similarity values (ma questa soluzione offre solo K-means), e qui: Effective clustering of a similarity matrix (ma questa soluzione era piuttosto vago)
Da http://en.wikipedia.org/wiki/Cosine_similarity: "Sebbene il termine" somiglianza del coseno "sia stato utilizzato per questa distanza angolare, il termine è stranamente usato poiché il coseno dell'angolo è usato solo come Comodo meccanismo per calcolare l'angolo stesso e non fa parte del significato.Il vantaggio del coefficiente di similarità angolare è che, quando viene utilizzato come coefficiente di differenza (sottraendolo da 1) * la funzione risultante è una metrica di distanza appropriata *, che non è il caso per il primo significato. " – phs
Grazie! avrebbe dovuto essere più specifico, sto usando una somiglianza simile al coseno che ho definito me stesso. Non soddisfa la disuguaglianza triangolare. – user1473883