6

di recente sono venuto a studiare il clustering nel data mining e ho studiato il clustering sequenziale e il clustering gerarchico e k-means.domande sui metodi di cluster

Ho letto anche una dichiarazione che distingue k-means dalle altre due tecniche di clustering, dicendo che k-means non è molto bravo nel trattare attributi nominali, ma il testo non ha spiegato questo punto. l'unica differenza che posso vedere è che per K-means, sapremo in anticipo che avremo bisogno esattamente dei cluster K, mentre non sappiamo quanti cluster abbiamo bisogno per altri due metodi di clustering.

Quindi qualcuno potrebbe darmi qualche idea sul motivo per cui tale affermazione esiste, cioè k-means ha questo problema quando si tratta di esempi di attributi nominali e c'è un modo per superare questo?

Grazie in anticipo.

risposta

5

L'algoritmo k-means calcola i centroidi del cluster prendendo i valori medi di tutti i punti nel cluster. Se un parametro è nominale, non puoi prendere un valore medio.

Talvolta i valori nominali possono essere inseriti in un tipo di ordine e quindi mappati su valori reali. Ad esempio, i giorni della settimana potrebbero essere mappati sull'intervallo [1.0 - 7.0], ma di nuovo a volte ciò non è possibile, ad esempio un attributo con valori [Windows, Linux, OSX].

+0

Si noti che solitamente si prende il valore di maggioranza della variabile discreta quando si calcolano i centroidi del cluster. – Amro

Problemi correlati