Sto cercando un modo per applicare in modo efficiente una funzione a ciascuna riga di data.table. Consideriamo la seguente tabella di dati:Applicazione di una funzione a ciascuna riga di un data.table
library(data.table)
library(stringr)
x <- data.table(a = c(1:3, 1), b = c('12 13', '14 15', '16 17', '18 19'))
> x
a b
1: 1 12 13
2: 2 14 15
3: 3 16 17
4: 1 18 19
Diciamo voglio dividere ogni elemento della colonna b
dallo spazio (ottenendo così due righe per ogni riga dei dati originali) e unire le tabelle dati risultanti. Per l'esempio di cui sopra, ho bisogno il seguente risultato:
a V1
1: 1 12
2: 1 13
3: 2 14
4: 2 15
5: 3 16
6: 3 17
7: 1 18
8: 1 19
Il seguente funzionerebbe se colonna a
ha solo valori unici:
x[, list(str_split(b, ' ')[[1]]), by = a]
Il seguenti quasi lavori (a meno che non ci sono alcuni righe identiche nella tabella dati originale), ma è brutto quando x
ha molte colonne e copia la colonna b nel risultato, che vorrei evitare.
> x[, list(str_split(b, ' ')[[1]]), by = list(a,b)]
a b V1
1: 1 12 13 12
2: 1 12 13 13
3: 2 14 15 14
4: 2 14 15 15
5: 3 16 17 16
6: 3 16 17 17
7: 1 18 19 18
8: 1 18 19 19
Quale sarebbe il modo più efficiente e idiomatico per risolvere questo problema?
Grazie Matthew - questo funziona nel mio particolare esempio (esattamente due componenti in ogni b, separati dallo spazio) ma non funzionerebbero in un caso più generale, dove ogni b può avere da 1 a 10 componenti. Il che dimostra che è difficile specificare con precisione la tua domanda alcune volte :). –
@VictorK. Ecco qua. –
Matt, questa è una soluzione perfetta che ha risparmiato un sacco di tempo ed eseguito in modo abbastanza efficiente. Mostra che il tuo DT deve davvero sostituire DF in r-base. Citerò questo nella mia lezione di analisi dei big data. Una domanda, come possiamo renderla ancora più efficiente eseguendola su più core in parallelo? Ho controllato htop e un core run. –