Esiste comunque la possibilità di accelerare il processo seguente in R?Modo più veloce per leggere più csv su un frame di dati?
theFiles <- list.files(path="./lca_rs75_summary_logs", full.names=TRUE, pattern="*.summarylog")
listOfDataFrames <- NULL
masterDataFrame <- NULL
for (i in 1:length(theFiles)) {
tempDataFrame <- read.csv(theFiles[i], sep="\t", header=TRUE)
#Dropping some unnecessary row
toBeRemoved <- which(tempDataFrame$Name == "")
tempDataFrame <- tempDataFrame[-toBeRemoved,]
#Now stack the data frame on the master data frame
masterDataFrame <- rbind(masterDataFrame, tempDataFrame)
}
Fondamentalmente, sto leggendo più file CSV in una directory. Voglio combinare tutti i file csv in un gigantesco frame di dati impilando le righe. Il ciclo sembra funzionare più a lungo man mano che masterDataFrame aumenta di dimensioni. Sto facendo questo su un cluster Linux.
Grazie. rbindlist velocizza davvero le cose! – WonderSteve
Usa 'fread' invece di' read.csv' se stai scendendo il percorso data.table .... – mnel