Mi piacerebbe avere una funzione che restituisce gli indici iniziali delle sottosequenze di corrispondenza di un vettore. Per esempio:Corrispondenza di una sequenza in un vettore più grande
y <- c("a","a","a","b","c")
multi_match(c("a","a"), y)
# [1] 1 2
multi_match(c("a","b"), y)
# [1] 3
ho un'implementazione ruvido, ma mi sento come se devo essere reinventare la ruota, ed è un po 'goffo. C'è un modo migliore per implementare questo, o c'è una funzione preesistente da qualche parte con funzionalità simili?
multi_match <- function(x, table){
# returns initial indicies of all substrings in table which match x
if(length(table) < length(x)){
return(NA)
}else{
check_mat <- matrix(nrow = length(x), ncol = length(table))
for(i in 1:length(x)){
check_mat[i,] <- table %in% x[i]
}
out <- vector(length = length(table))
for(i in 1:(length(table)-(length(x)-1))){
check <- vector(length=length(x))
for(j in 1:length(x)){
check[j] <- check_mat[j,(i+(j-1))]
}
out[i] <- all(check)
}
if(length(which(out))==0){
return(NA)
}else{
return(which(out))
}
}
}
c'è un sacco di corda corrispondenti funzionalità nel pacchetto BioConductor 'BioStrings', anche se questo funziona con ' stringhe ', cioè' vettori di caratteri di lunghezza 1 ', piuttosto che i vettori che hai. http://www.bioconductor.org/packages/2.12/bioc/html/Biostrings.html –