2011-11-12 10 views
7

Quindi so che questo è un argomento di grandi dimensioni, ma devo accettare una porzione di testo ed estrarre le parole chiave più interessanti da esso. Il testo proviene da didascalie televisive, quindi il tema può spaziare dalle notizie allo sport ai riferimenti alla cultura pop. È possibile fornire il tipo di spettacolo dal quale proviene il testo.Come estrarre le parole chiave da un blocco di testo in Haskell

Ho un'idea per abbinare il testo a un dizionario di termini che so essere interessante in qualche modo.

Quali librerie per Haskell possono aiutarmi con questo?

Supponendo che abbia un dizionario di termini interessanti e un database in cui archiviarli, esiste un approccio particolare che consiglieresti di abbinare le parole chiave all'interno del testo?

C'è un approccio ovvio a cui non sto pensando?

risposta

1

Per espandere il bpgergo risposta (ma non ho alcuna informazione specifica di haskell), è piuttosto semplice inserire i documenti in un database relazionale e indicizzarli con SOLR/lucene o sfinge, ognuno dei quali dovrebbe avere uno stemmer nella configurazione predefinita/suggerita. E poi puoi cercare su quali documenti hanno coppie, triple, ecc. Della tua lista di "termini interessanti"

Si potrebbe guardare il riconoscimento dell'entità denominata, il rilevamento di frasi statisticamente insolito, la generazione del tag automatico, argomenti come quello. Lingpipe è un buon punto di partenza, anche questi libri:

http://alias-i.com/lingpipe/demos/tutorial/read-me.html

http://www.manning.com/marmanis/excerpt_contents.html

http://www.manning.com/alag/excerpt_contents.html

Problemi correlati