Questa è una domanda aperta in PNL, quindi non esiste una risposta semplice.
La mia raccomandazione per "il meglio per me" veloce e sporco è topia.termextract.
Yahoo ha un servizio di estrazione parole chiave (http://developer.yahoo.com/search/content/V1/termExtraction.html) che è un richiamo basso ma di alta precisione. In altre parole, ti dà un piccolo numero di termini di alta qualità, ma manca molti dei termini nei tuoi documenti.
In Python, esiste topia.termextract (http://pypi.python.org/pypi/topia.termextract/). È relativamente rumoroso e propone molte parole chiave fasulle, ma è semplice da usare.
Termine (http://www.nactem.ac.uk/software/termine/) è un servizio Web del Regno Unito che è anche relativamente rumoroso e propone molte parole chiave fasulle. Tuttavia, mi sembra leggermente più preciso di topia.termextract. YMMV.
Un modo per eliminare i risultati con troppe parole chiave (ad esempio topia.termextract e termine) è creare un vocabolario di termini che si verificano frequentemente e quindi eliminare termini proposti che non fanno parte del vocabolario. In altre parole, esegui due passaggi sul corpus: il primo passaggio, conta la frequenza di ciascuna parola chiave. Nel secondo passaggio, scarta le parole chiave che sono troppo rare.
Se si vuole scrivere il proprio, forse la migliore introduzione è scritta da Park, che è ora a IBM:
- "estrazione glossario automatica: al di là di identificazione terminologia" disponibile presso http://portal.acm.org/citation.cfm?id=1072370
- "Glossario l'estrazione e l'utilizzo nella ricerca di informazioni e sistema di consegna per il supporto tecnico IBM"
Qui ci sono alcuni più riferimenti, se volete saperne di più:
- http://en.wikipedia.org/wiki/Terminology_extraction
- "CorePhrase: Keyphrase estrazione per Document Clustering"
- Liu et al 2009 dalle NAACL HLT
- "identificazione automatica di frasi non-compositivi"
- "Data Mining Soddisfa Collocazioni Discovery"
- Così come una serie di altri riferimenti è possibile approfondire l'argomento.
fonte
2009-10-15 21:58:17
puoi dare qualche fonte di -> lista di parole "semplici" di strisce. Non riesco a trovarli –
In linguaggio naturale, le parole "semplici" sono spesso definite parole di arresto. http://en.wikipedia.org/wiki/Stop_words. Ci sono un sacco di file stopwords.txt in giro ... ad es. http://ir.dcs.gla.ac.uk/resources/linguistic_utils/stop_words – roy
Un elenco di parole di arresto in inglese: http://xpo6.com/list-of-english-stop-words/ –