determinare la frequenza di stringa utilizzando grep

se ho un vettoredeterminare la frequenza di stringa utilizzando grep

x <- c("ajjss","acdjfkj","auyjyjjksjj")

e fare:

y <- x[grep("jj",x)] 
table(y)

ottengo:

y 
     ajjss auyjyjjksjj 
      1   1

Tuttavia la seconda stringa "auyjyjjksjj" dovrebbe contare la sottostringa "jj" due volte. Come posso cambiare questo da un calcolo vero/falso, per contare effettivamente la frequenza di "jj"?

Anche se per ciascuna stringa è possibile calcolare la frequenza della sottostringa divisa per la lunghezza della stringa, sarebbe ottimo.

Grazie in anticipo.

fonte

2013-03-24 brucezepplin

Ho risolto questo usando gregexpr()

x <- c("ajjss","acdjfkj","auyjyjjksjj") 
freq <- sapply(gregexpr("jj",x),function(x)if(x[[1]]!=-1) length(x) else 0) 
df<-data.frame(x,freq) 

df 
#   x freq 
#1  ajjss 1 
#2  acdjfkj 0 
#3 auyjyjjksjj 2

E per l'ultima parte della domanda, calcolando frequenza/lunghezza della stringa ...

df$rate <- df$freq/nchar(as.character(df$x))

è nece ssary per convertire df $ x in una stringa di caratteri in quanto data.frame (x, freq) converte automaticamente le stringhe in fattori a meno che non si specifichi stringsAsFactors = F.

df 
#   x freq  rate 
#1  ajjss 1 0.2000000 
#2  acdjfkj 0 0.0000000 
#3 auyjyjjksjj 2 0.1818182

fonte

2013-03-24 16:19:25 ndoogan

questo è eccellente, grazie. Mi accorgo che calcoli la lunghezza della stringa - nel data.frame posso chiamare la frequenza/lunghezza? questo sarebbe molto utile. Grazie. – brucezepplin

oh scusa - cosa intendo dire, posso restituire per ogni stringa la frequenza della sottostringa divisa per la lunghezza della stringa? – brucezepplin

scusate - I; sto ottenendo errore in nchar (df $ x): 'nchar()' richiede un vettore di caratteri – brucezepplin

Stai utilizzando lo strumento sbagliato. Prova gregexpr, che vi darà le posizioni in cui è stata trovata la stringa di ricerca (o -1 se non trovato):

> gregexpr("jj", x, fixed = TRUE) 
[[1]] 
[1] 2 
attr(,"match.length") 
[1] 2 
attr(,"useBytes") 
[1] TRUE 

[[2]] 
[1] -1 
attr(,"match.length") 
[1] -1 
attr(,"useBytes") 
[1] TRUE 

[[3]] 
[1] 6 10 
attr(,"match.length") 
[1] 2 2 
attr(,"useBytes") 
[1] TRUE

fonte

2013-03-24 16:17:48 A5C1D2H2I1M1N2O1R2T1

grazie mille, questo è stato molto utile. – brucezepplin

la posizione è in realtà molto utile per me ora ci penso. Grazie. – brucezepplin

È possibile utilizzare qdap (anche se non in base installata R):

x <- c("ajjss","acdjfkj","auyjyjjksjj") 
library(qdap) 
termco(x, seq_along(x), "jj") 

## > termco(x, seq_along(x), "jj") 
## x word.count   jj 
## 1 1   1 1(100.00%) 
## 2 2   1   0 
## 3 3   1 2(200.00%)

Si noti che l'uscita ha la frequenza e la frequenza rispetto al conteggio delle parole (l'uscita è in realtà una lista, ma stampa un bel produzione). Per accedere alle frequenze:

termco(x, seq_along(x), "jj")$raw 

## > termco(x, seq_along(x), "jj")$raw 
## x word.count jj 
## 1 1   1 1 
## 2 2   1 0 
## 3 3   1 2

fonte

2013-03-24 16:39:05

Questo semplice one-liner in base r si avvale di strsplit e poi Grepl, ed è abbastanza robusta, ma si rompa se deve contare partite come jjjjjj come 3 lotti di jj. Il pattern matching che rende possibile ciò è da @JoshOBriens excellent Q&A:

sum(grepl("jj" , unlist(strsplit(x , "(?<=.)(?=jj)" , perl = TRUE)))) 



# Examples.... 
f<- function(x){ 
    sum(grepl("jj" , unlist(strsplit(x , "(?<=.)(?=jj)" , perl = TRUE)))) 
    } 

    #3 matches here 
    xOP <- c("ajjss","acdjfkj","auyjyjjksjj") 
    f(xOP) 
    # [1] 3 

    #4 here 
    x1 <- c("ajjss","acdjfkj", "jj" , "auyjyjjksjj") 
    f(x1) 
    # [1] 4 

    #8 here 
    x2 <- c("jjbjj" , "ajjss","acdjfkj", "jj" , "auyjyjjksjj" , "jjbjj") 
    f(x2) 
    # [1] 8 

    #Doesn't work yet with multiple jjjj matches. We want this to also be 8 
    x3 <- c("jjjj" , "ajjss","acdjfkj", "jj" , "auyjyjjksjj" , "jjbjj") 
    f(x3) 
    # [1] 7

fonte

2013-03-24 17:37:18

questo solleva un punto importante - la risposta accettata ha risolto questo problema. Se avessi "jjjjjj" vorrei restituire una frequenza di 3. Suppongo tuttavia che questo sarebbe un problema se permettessi sovrapposizioni nel conteggio delle frequenze dandomi una frequenza di 5. Per fortuna non è questo il caso! Ma grazie per averlo indicato. – brucezepplin

determinare la frequenza di stringa utilizzando grep

risposta

Problemi correlati