Mi chiedo cosa fanno le altre persone con K-means che ordina i cluster. Sto facendo heatmap (principalmente dei dati ChIP-Seq) e ottenendo figure dall'aspetto piacevole con una funzione heatmap personalizzata (basata sulla funzione heatmap incorporata da R). Tuttavia, mi piacerebbe due miglioramenti. Il primo è ordinare i miei cluster sulla base del valore medio decrescente. Ad esempio, il seguente codice:Kmean inter e intra cluster ordering
fit = kmeans(data, 8, iter.max=50, nstart=10)
d = data.frame(data, symbol)
d = data.frame(d, fit$cluster)
d = d[order(d$fit.cluster),]
mi fornisce un data.frame ordinato su una colonna di cluster. Qual è il modo migliore per ordinare le righe in modo tale che gli 8 cluster siano in ordine di rispettivo significato?
In secondo luogo, si consiglia di ordinare le righe ALL'INTERNO di ogni cluster dal valore medio più alto al più basso? Ciò imporrà un aspetto più organizzato sui dati, ma potrebbe ingannare un osservatore non cauto a dedurre qualcosa che forse non dovrebbe. Se lo consigli, come lo faresti nel modo più efficiente?
mezzi di che cosa? Una delle variabili utilizzate per il clustering o qualcos'altro? –
Mezzi dei valori in ciascun cluster. Ad esempio, se ogni cluster è 30 righe in un data.frame e data.frame ha 10 colonne su cui viene eseguito k-means clustering, vorrei la media dei 300 valori in ogni cluster. Potrebbe anche usare il centroide. –
Il centroide non è un numero per ogni cluster, è un punto nello spazio 10-d e quindi ciascun centroide del cluster ha 10 coordinate. –