2016-02-05 5 views

Come fare questo stringsplit() in R? Interrompi la divisione quando non rimangono i nomi separati dai trattini. Mantenere la sottostringa sul lato destro come indicato nei risultati.R Dividere la stringa e mantenere sottostringhe a destra della corrispondenza?

a <- c("tim/tom meyer XY900 123kncjd", "sepp/max/peter moser VK123 456xyz") 

# result: 
c("tim meyer XY900 123kncjd", "tom meyer XY900 123kncjd", "sepp moser VK123 456xyz", "max moser VK123 456xyz", "peter moser VK123 456xyz") 



Ecco una possibilità utilizzando alcune delle diverse funzioni di stringa di base.

## get the lengths of the output for each first name 
len <- lengths(gregexpr("/", sub(" .*", "", a), fixed = TRUE)) + 1L 
## extract all the first names 
## using the fact that they all end at the first space character 
fn <- scan(text = a, sep = "/", what = "", comment.char = " ") 
## paste them together 
paste0(fn, rep(regmatches(a, regexpr(" .*", a)), len)) 
# [1] "tim meyer XY900 123kncjd" "tom meyer XY900 123kncjd" 
# [3] "sepp moser VK123 456xyz" "max moser VK123 456xyz" 
# [5] "peter moser VK123 456xyz" 

Aggiunta: Ecco una seconda possibilità, con un po 'meno codice. Potrebbe anche essere un po 'più veloce.

s <- strsplit(a, "\\/|(.*)") 
paste0(unlist(s), rep(regmatches(a, regexpr(" .*", a)), lengths(s))) 
# [1] "tim meyer XY900 123kncjd" "tom meyer XY900 123kncjd" 
# [3] "sepp moser VK123 456xyz" "max moser VK123 456xyz" 
# [5] "peter moser VK123 456xyz" 

Perfetto! ... nessuna funzione di loop e di base è esattamente ciò che cercavo;) – Kay


Nice solution Richard –


Questa seconda soluzione è money man 1 plus –


lo farei così (con stringi):


a <- c("tim/tom meyer XY900 123kncjd", "sepp/max/peter moser VK123 456xyz") 

stri_split_fixed(stri_match_first_regex(a, "(.+?)[ ]")[,2], "/") -> start 
stri_match_first_regex(a, "[ ](.+)")[,2] -> end 

for(i in 1:length(end)){ 
    start[[i]] <- paste(start[[i]], end[i]) 


## [1] "tim meyer XY900 123kncjd" "tom meyer XY900 123kncjd" "sepp moser VK123 456xyz" 
## [4] "max moser VK123 456xyz" "peter moser VK123 456xyz" 

Ecco uno approccio:

a <- c('tim/tom meyer XY900 123kncjd','sepp/max/peter moser VK123 456xyz'); 
do.call(c,lapply(strsplit(a,' '),function(w) apply(expand.grid(strsplit(w,'/')),1,paste,collapse=' '))); 
## [1] "tim meyer XY900 123kncjd" "tom meyer XY900 123kncjd" "sepp moser VK123 456xyz" "max moser VK123 456xyz" "peter moser VK123 456xyz" 

Un vantaggio di questa soluzione è che esegue la divisione e ricombinazione per tutte le parole in ogni stringa, piuttosto che solo la prima parola, correttamente restituendo il pieno cartesiano prodotto di tutte le varianti di parole:

a <- c('a/b/c d/e/f g/h/i','j/k/l m/n/o p/q/r'); 
do.call(c,lapply(strsplit(a,' '),function(w) apply(expand.grid(strsplit(w,'/')),1,paste,collapse=' '))); 
## [1] "a d g" "b d g" "c d g" "a e g" "b e g" "c e g" "a f g" "b f g" "c f g" "a d h" "b d h" "c d h" "a e h" "b e h" "c e h" "a f h" "b f h" "c f h" "a d i" "b d i" "c d i" "a e i" "b e i" "c e i" "a f i" "b f i" "c f i" "j m p" "k m p" "l m p" "j n p" "k n p" "l n p" "j o p" "k o p" "l o p" "j m q" "k m q" "l m q" "j n q" "k n q" "l n q" "j o q" "k o q" "l o q" "j m r" "k m r" "l m r" "j n r" "k n r" "l n r" "j o r" "k o r" "l o r" 

Perché non un altro approccio da mostrare ci sono molti modi per una soluzione R. Dividere la stringa per il simbolo /. Separa i primi nomi dal resto della stringa. Quindi combinare con paste. Interessante domanda:

unlist(sapply(strsplit(a, "/"), function(x) {len <- length(x) 
    last <- gsub("^(\\w+).*", "\\1", x[len]) 
    fill <- gsub("^\\w+ ", "", x[len]) 
    paste(c(x[-len], last), fill)})) 
# [1] "tim meyer XY900 123kncjd" "tom meyer XY900 123kncjd" "sepp moser VK123 456xyz" 
# [4] "max moser VK123 456xyz" "peter moser VK123 456xyz" 
Problemi correlati