Ho ottenuto un registro telefonico molto lungo come file di testo e ho provato a leggerlo in R, ma non sta funzionando. Il testo ha una struttura ma non è certamente un tavolo. La sua struttura è la seguenteCome leggo un file di testo in R quando i dati non sono in una tabella
- Ogni record è composto da più linee in modo readlines non è abbastanza adeguata
- Ogni riga di ciascun record è un campo separato
- Alcuni documenti hanno un campo aggiuntivo dopo il secondo campo
- Ogni nuovo record è contrassegnato da una riga vuota.
readLines
oscan
avrebbe funzionato se si sarebbe potuto specificato che i record sono stati separati da "\ n \ n" e che i campi (o colonne) sono stati separati da "\ n"
Ecco un esempio:
TheInstitute 5467
telephone line 4125526987 x 4567
datetime 2011110516 12:56
blay blay blah who knows what, but anyway it may have a comma
TheInstitute 5467
telephone line 4125526987 x 4567
datetime 2011110516 12:58
blay blay blah who knows what
TheInstitute 5467
telephone line 412552999 x 4999
bump phone line 4125527777
datetime 2011110516 12:59
blay blay blah who knows what
TheInstitute 5467
telephone line 4125526987 x 4567
bump phone line 4125527777
datetime 2011110516 13:51
blay blay blah who knows what, but anyway it may have a comma
TheInstitute 5467
telephone line 4125526987 x 4567
datetime 2011110516 14:56
blay blay blah who knows what
Come posso farlo in R? Ho provato trucchi con scan, paste, strsplit ma sto girando in tondo. Potrei doverlo inserire in una lista poiché è in grado di gestire un numero non uguale di elementi. Vorrei avere tutti i record per avere lo stesso numero di campi e per quei record che non hanno lo stesso campo (qui chiamato bump phone) mi piacerebbe loro solo avere un NA come valore in quel campo. Apprezzerei l'aiuto anche solo per iniziare. Da lì posso giocare e giocare.
+1 Bellissima ... – Andrie
... ma credo che avete bisogno di ulteriore spaccatura 'place',' tline' e 'cline1' in sub colonne? – Tommy
Penso che il prossimo compito sarebbe quello di spostare i dati "datetime" e "bump lines", ma non pensavo che l'interrogante chiedesse di analizzare i commenti. –