Sono stato sorpreso di scoprire che clara
da library(cluster)
consente NA. Ma la documentazione della funzione non dice nulla su come gestisce questi valori.clustering con valori NA in R
Quindi le mie domande sono:
- Come
clara
maniglie NAS? - Può essere utilizzato in qualche modo per
kmeans
(non consentito)?
[Update] linee Così ho trovato di codice in clara
funzione:
inax <- is.na(x)
valmisdat <- 1.1 * max(abs(range(x, na.rm = TRUE)))
x[inax] <- valmisdat
che non mancanti sostituzione valore valmisdat
. Non sono sicuro di aver compreso la ragione per usare questa formula. Qualche idea? Sarebbe più "naturale" trattare le NA per ogni colonna separatamente, magari sostituendole con media/mediana?
Stesse linee di codice per trattare i valori mancanti in 'daisy' come nella funzione' clara' (vedere l'aggiornamento della mia domanda). –
@ danas.zuokas Non sono sicuro di quanto sia utile semplicemente tirare linee arbitrarie di codice dalle fonti che si pensa siano correlate alla domanda. Devi studiare sia il codice R che il codice C. 'valmisdat' è il valore usato per indicare i dati mancanti (' NA') nel codice C piuttosto che usare 'NA' direttamente. Se si guarda il codice C, si vedrà che chiaramente ignora solo i confronti in cui una variabile ha un valore mancante per uno o l'altro o entrambi i campioni per i quali viene calcolata la dissomiglianza. Vedere la risposta aggiornata per il puntatore al codice. –
Grazie, Gavin! –