2015-07-13 19 views
9

Il tag di riconoscimento della parte del discorso incorporato del pacchetto nltk non sembra essere ottimizzato per il mio caso d'uso (here, for instance). Il source code here mostra che sta utilizzando un classificatore salvato e pre-addestrato chiamato maxent_treebank_pos_tagger.Cosa ha creato `maxent_treebank_pos_tagger/english.pickle`?

Cosa creato maxent_treebank_pos_tagger/english.pickle? Immagino che ci sia un corpus taggato là fuori da qualche parte che è stato usato per addestrare questo tagger, quindi penso che sto cercando (a) quel taggato corpus e (b) il codice esatto che allena il tagger in base al taggato corpus.

Oltre a un sacco di googling, finora ho cercato di guardare l'oggetto .pickle direttamente per trovare qualche indizio al suo interno, a partire da come questo

from nltk.data import load 
x = load("nltk_data/taggers/maxent_treebank_pos_tagger/english.pickle") 
dir(x) 
+0

Non del tutto sicuro, ma credo che il corpus utilizzato è il [Penn Treebank] (https: //www.cis.upenn.edu/~treebank/) – Igor

+0

@Igor, il codice sorgente che mi è piaciuto sopra sembra essere d'accordo. Sfortunatamente, sembra che i dati di Penn Treebank non siano gratuiti per il pubblico, il che per lo più risponde alla mia domanda: https://catalog.ldc.upenn.edu/LDC99T42 – zkurtz

risposta

6

La fonte NLTK è https://github.com/nltk/nltk/blob/develop/nltk/tag/init.py#L83

L'originale fonte di MaxEnt POS tagger di NLTK è da https://github.com/arne-cl/nltk-maxent-pos-tagger

i dati di allenamento: Wall Street Journal sottoinsieme del corpus banca Penn Albero

Caratteristiche: Ratnaparki (1996)

Algoritmo: massima entropia

Precisione: What is the accuracy of nltk pos_tagger?

+0

Il tuo secondo link (https://github.com/ arne-cl/nltk-maxent-pos-tagger) è la parte che sembra indirizzare direttamente la mia domanda. Come fai a sapere che questo è lo stesso 'nltk-maxent-pos-tagger 'come appare nel pacchetto ufficiale' nltk'? – zkurtz

+1

Issue raied: https://github.com/arne-cl/nltk-maxent-pos-tagger/issues/1 – alvas

+0

Perché non sollevare un problema anche sul github nltk? – b3000

Problemi correlati