2014-12-22 14 views
8

Sto usando il modulo nltk in python e sto cercando di usarlo per il tagging POS in diverse lingue.NLTK Tagger POS alternativo

Ci sono molte informazioni su come addestrare il proprio tagger POS in lingue diverse - esiste un database di tagger POS NLTK ben costruiti e collaudati per diverse lingue? (E 'abbastanza facile da esportare taggers POS utilizzando il modulo pickle)

+0

possibile duplicato di [NLTK Tagging parole spagnole che utilizzano un corpus] (http://stackoverflow.com/questions/14732465/nltk-tagging-spanish-words-using-a-corpus) – alvas

risposta

4

Potete trovare robusto e ben costruito e testato NLTK Corpora a http://www.nltk.org/nltk_data/

Si possono trovare altre corporas, ma questi sono i migliori

1

Da quello che so non esiste un database di robusti tagger POS ben costruito e testato. Penso che sia comunque una buona idea.

Ho provato un paio di tagger me stesso. Per un grande corpus di inglese che ho usato: http://gmb.let.rug.nl/

Per lo spagnolo ho usato quella inclusa nel NLTK (cess_esp)

from nltk.corpus import cess_esp as cess 

Per la formazione rapidamente semplici tagger è possibile controllare NLTK Trainer:

https://nltk-trainer.readthedocs.org/en/latest/train_tagger.html

3

Se non è rigorosa per utilizzando solo NLTK, si può provare il nostro robusto e indipendente dal linguaggio POS etichettatura toolkit RDRPOSTagger.

(Licenza: GPLv2, linguaggio di programmazione: Python & Java)

RDRPOSTagger ottiene prestazioni veloci sia in processo di apprendimento e codifica. Inoltre, RDRPOSTagger raggiunge un'accuratezza molto competitiva rispetto ai risultati allo stato dell'arte.

Aggiornato il 18/11/2015: versione 1.2 con maggiore precisione di codifica, in particolare su linguaggi morfologicamente ricchi. Visualizza i risultati sperimentali inclusa la velocità della prestazione e la precisione di codifica in this paper.

RDRPOSTagger supporta modelli POS e morfologici di etichettatura pre-formati per bulgaro, ceco, olandese, inglese, francese, tedesco, hindi, italiano, portoghese, spagnolo, svedese, thailandese e vietnamita. RDRPOSTagger supporta anche i modelli di codifica POS Universal pre-formati per 40 lingue.

+0

Nel caso in cui qualcun altro ne abbia bisogno, Ho fatto un [porting su Python 3] (https://github.com/jacopofar/RDRPOSTagger-python-3) – Jacopofar

Problemi correlati