2015-04-02 9 views
5

avete chiunque sentito qualsiasi pacchetto o funzionalità che funziona come la funzione dist{stats} da R che crea la matriceC'è qualche supporto sparse per la funzione dist in R?

distanza che viene calcolato utilizzando la misura distanza specificata per calcolare le distanze tra le file di dati matrice,

ma prendere una matrice sprase come input?

Il mio data.frame (denominato dataCluster) ha dim: 7000 X 10000 ed è quasi 99% sparse. In forma regolare che non è sparsa questa funzione non sembra smettere di lavorare ...

h1 <- hclust(dist(dataCluster) , method = "complete") 

interrogazione senza risposta: Sparse Matrix as input to Hierarchical clustering in R

risposta

2

Volete wordspace::dist.matrix.

accetta matrici sparse dal pacchetto Matrix (che non è chiaro dalla documentazione) e possono anche fare distanze trasversali, uscita sia Matrix e dist oggetti e altro.

La misura di distanza predefinita è 'cosine', quindi assicurati di specificare method = 'euclidean' se lo desideri.

+0

Sono passati 2 anni da quando ho fatto questa domanda. Grazie per la risposta! Ora userei la distanza 'cosine', per le matrici sparse che probabilmente rappresentavano le matrici dei termini del documento che volevo probabilmente raggruppare quel giorno:) –

+0

Haha lo so, ma pensavo che meritasse la risposta. Inoltre, il pacchetto non esisteva quando hai posto la domanda, quindi almeno due di noi e l'autore del pacchetto avevano il problema: D –

+0

'quanteda :: textstat_dist()' accetta anche matrici sparse come 'dgCMatrix' dal Pacchetto 'Matrix' e restituisce un oggetto dist. –