I k-medoids nel Clara() funzione utilizza distanza per formare gruppi in modo da ottenere questo schema:Come raggruppare per trend invece che per distanza in R?
a <- matrix(c(0,1,3,2,0,.32,1,.5,0,.35,1.2,.4,.5,.3,.2,.1,.5,.2,0,-.1), byrow=T, nrow=5)
cl <- clara(a,2)
matplot(t(a),type="b", pch=20, col=cl$clustering)
Ma io voglio trovare un metodo di clustering che assegna un cluster per ogni linea secondo la sua tendenza, quindi le linee 1, 2 e 3 appartengono a un cluster e le linee 4 e 5 a un altro.
È diverso da ciò che @joran ha proposto? Potrei non vedere la differenza – nachocab
Dopo aver letto la sua risposta: no, non è sostanzialmente diverso. Sto suggerendo un diverso ridimensionamento. Tuttavia, il punto chiave che volevo sottolineare è che questo appartiene al passaggio importante del pre-elaborazione che non devi trascurare. Ecco perché c'è sempre così tanto parlare del processo di KDD: https://en.wikipedia.org/wiki/Data_mining#Process È il 90% dello sforzo nel settore minerario reale, è il 5% dei risultati scientifici al massimo, che concentrarsi su nuovi algoritmi. –