Ho visto tonnellate di documentazione in tutto il Web su come il python NLTK rende facile calcolare bigrammi di parole.NLTK semplifica il calcolo dei bigram di parole. Che mi dici delle lettere?
E le lettere?
Quello che voglio fare è collegare un dizionario e dirmi le frequenze relative di coppie di lettere diverse.
In fin dei conti mi piacerebbe fare una sorta di processo markov per generare parole dall'aspetto probabile (ma finto).
Che cosa si può fare è semplicemente prendere la stringa di parole, ma avere il vostro tokenize tokenizer per lettera invece che con la parola, e quindi eseguire il tuo modello di bigram su quel set di token letterali. – jdotjdot