Ho una serie di elementi di testo: HTML non elaborato da un database MySQL. Voglio trovare le frasi più comuni in queste voci (non la singola frase più comune, e idealmente, non imporre la corrispondenza parola per parola).Come estrarre le frasi comuni/significative da una serie di voci di testo
Il mio esempio è un qualsiasi commento su Yelp.com, che mostra 3 frammenti di centinaia di recensioni di un determinato ristorante, nel formato:
"Provate l'hamburger" (in 44 recensioni)
esempio , la sezione "iN SINTESI" di questa pagina:
http://www.yelp.com/biz/sushi-gen-los-angeles/
ho NLTK installato e ho giocato intorno con esso un po ', ma sto onestamente sopraffatto dalle opzioni. Questo sembra un problema piuttosto comune e non sono stato in grado di trovare una soluzione semplice cercando qui.
con nltk, è abbastanza facile ottenere bigram e trigram, ma quello che sto cercando sono frasi che sono più probabili 7 - 8 parole di lunghezza.Non ho capito come rendere nltk (o qualche altro metodo) fornire tali "octogrammi" e oltre. – arronsky