2014-09-01 6 views
6

Sto provando a fare un programma Ruby che conta il numero di volte in cui due lettere appaiono insieme. Questo è ciò che è scritto nel file che sto leggendo:Contando il numero di volte in cui due lettere appaiono insieme

hola 
chau 

E questo è quello che sto cercando di ottenere:

ho;ol;la;ch;ha;au; 
1;1;1;1;1;1; 

io non riesco a farlo funzionare correttamente. Questo è il mio codice finora:

file = File.read(gets.chomp) 
todo = file.scan(/[a-z][a-z]/).each_with_object(Hash.new(0)) { 
    |a, b| b[a] += 1 
} 

keys = '' 
values = '' 

todo.each_key { 
    |key| keys += key + ';' 
} 
todo.each_value { 
    |value| values += value.to_s + ';' 
} 

puts keys 
puts values 

Questo è il risultato che sto ottenendo:

ho;la;ch;au; 
1;1;1;1; 

Perché non ricevo ogni combinazione di caratteri? Cosa dovrei aggiungere alla mia regex in modo che contasse ogni combinazione di caratteri?

risposta

9

Poiché i caratteri sono sovrapposti, è necessario utilizzare un lookahead per acquisire i caratteri sovrapposti.

(?=([a-z][a-z])) 

DEMO

+1

Molto istruttivo, Avinash. Non avevo mai visto un gruppo di cattura in un gruppo di ricerca. Molto potente. –

+0

Si potrebbe invece aver usato il look-behind positivo '(? <= ([A-z] [a-z]))', a cui si allude in un commento che hai cancellato. Penso che meriti menzione. –

2

Questo è un modo.

def char_pairs(str) 
    str.split(/\s+/).flat_map { |w| w.chars.each_cons(2).map(&:join) } 
        .each_with_object({}) { |e,h| h[e] = (h[e] ||= 0) + 1 } 
end 

char_pairs("hello jello") 
    #=> {"he"=>1, "el"=>2, "ll"=>2, "lo"=>2, "je"=>1} 

char_pairs("hello yellow jello") 
    #=> {"he"=>1, "el"=>3, "ll"=>3, "lo"=>3, "ye"=>1, "ow"=>1, "je"=>1} 

Avendo l'hash, è facile convertirlo in qualsiasi formato di output desiderato.

Problemi correlati