Corrispondenza dei dati con registrazione cronologica all'ora più vicina in un altro set di dati. Correttamente vettorializzato? Modo più veloce?

Ho un timestamp in un frame di dati che sto cercando di abbinare al timestamp più vicino in un secondo dataframe, allo scopo di estrarre i dati dal secondo dataframe. Vedi sotto per un esempio generico del mio approccio:Corrispondenza dei dati con registrazione cronologica all'ora più vicina in un altro set di dati. Correttamente vettorializzato? Modo più veloce?

library(lubridate) 

data <- data.frame(datetime=ymd_hms(c('2015-04-01 12:23:00 UTC', '2015-04-01 13:49:00 UTC', '2015-04-01 14:06:00 UTC' ,'2015-04-01 14:49:00 UTC')), 
        value=c(1,2,3,4)) 
reference <- data.frame(datetime=ymd_hms(c('2015-04-01 12:00:00 UTC', '2015-04-01 13:00:00 UTC', '2015-04-01 14:00:00 UTC' ,'2015-04-01 15:00:00 UTC', '2015-04-01 16:00:00 UTC')), 
         refvalue=c(5,6,7,8,9)) 

data$refvalue <- apply(data, 1, function (x){ 
    differences <- abs(as.numeric(difftime(ymd_hms(x['datetime']), reference$datetime))) 
    mindiff <- min(differences) 
    return(reference$refvalue[differences == mindiff]) 
}) 

data 
#    datetime value refvalue 
# 1 2015-04-01 12:23:00  1  5 
# 2 2015-04-01 13:49:00  2  7 
# 3 2015-04-01 14:06:00  3  7 
# 4 2015-04-01 14:49:00  4  8

Questo funziona bene, tranne che è molto lento, perché la dataframe di riferimento è abbastanza grande nella mia applicazione nel mondo reale. Questo codice è correttamente vettorizzato? Esiste un modo più veloce ed elegante per eseguire questa operazione?

fonte

2015-06-28 user278411

In Python questo è esattamente ciò che la funzione numpy.searchsorted è per. Ho cercato un equivalente R ma non ne ho trovato uno fino a quel momento .. – cxrodgers

@cxrodgers: Sarebbe interessante vedere un'applicazione di tale funzione per questo compito. Dopo aver esaminato la documentazione, mi sto grattando la testa chiedendomi come avrebbe fatto. Riesci a trovare un esempio operativo SO? –

@BondedDust vedere la risposta fornita da Bi Rico qui: http://stackoverflow.com/questions/8914491/finding-the-nearest-value-and-return-the-index-of-array-in-python – cxrodgers

mi sono chiesto se questo sarebbe in grado di abbinare una soluzione data.table per la velocità, ma è una soluzione vectorized base-R, che dovrebbe superare la versione apply. E poiché in realtà non calcola mai una distanza, potrebbe effettivamente essere più veloce dell'approccio data.table-più vicino. Questo aggiunge la lunghezza dei punti medi degli intervalli al valore più basso possibile o al punto iniziale degli intervalli per creare un insieme di "pause intermedie" e quindi utilizza la funzione findInterval per elaborare i tempi. Ciò crea un indice adatto nelle righe del set di dati reference e il "valore di riferimento" può quindi essere "trasferito" nell'oggetto data.

data$reefvalue <- reference$refvalue[ 
         findInterval(data$datetime, 
            c(-Inf, head(reference$datetime,-1))+ 
            c(0, diff(as.numeric(reference$datetime))/2)) ] 
# values are [1] 5 7 7 8

fonte

2015-06-28 20:12:55

Grazie mille. Funziona bene – user278411

Si può provare data.table s rotolamento join utilizzando l'opzione "più vicino"

library(data.table) # v1.9.6+ 
setDT(reference)[data, refvalue, roll = "nearest", on = "datetime"] 
# [1] 5 7 7 8

fonte

2015-06-28 19:58:09

In una linea (senza ottenere indice): 'setDT (dati) [, REFVALUE: = setkey (setDT (di riferimento), datetime) [dati, REFVALUE, rotolo = "più vicino"]]' - questo otterrà molto più bello quando si unisce senza le chiavi sono implementate. – Arun

@Arun grazie, ancora due passaggi sembra più leggibile per me anche se ... –

Di sicuro. Sono d'accordo. – Arun

Corrispondenza dei dati con registrazione cronologica all'ora più vicina in un altro set di dati. Correttamente vettorializzato? Modo più veloce?

risposta

Problemi correlati