2010-02-26 13 views

risposta

7

Il più grande punto debole di un tagger Brill è il tempo necessario per la fase di addestramento (date un'occhiata ai timestamp per ACOPOST here o provate a implementarne uno con NLTK per avere un'idea). Ricorda che dovresti sempre considerare un tagger di Brill come l'ultimo tagger da utilizzare in una sequenza di sistemi di tagging (per un semplice tag di solito uso e formo un tagger di Brill sull'output di un tagger HMM). Oltre a rendere la fase di addestramento ancora più lunga, utilizzare da solo un tagger Brill genera generalmente un insieme di regole molto grandi, normalmente sovrapposte e talvolta "errate" (cioè regole che nei contesti di tag "veri" frenano molti tag corretti).

Il più grande punto di forza di un tagger di Brill è il fatto che il suo modello ha un senso, in particolare quando si memorizzano le regole in un formato leggibile dall'uomo come generalmente viene fatto. Per ispezionare manualmente il modello di un tagger statistico è noioso, soggetto a errori e non molto utile, mentre un set di regole di trasformazione non solo può essere compreso e ottimizzato manualmente, ma ciò può essere fatto anche da persone senza esperienza precedente in NLP (in effetti, ho fatto anni fa quando alcuni studenti universitari di un programma linguistico hanno valutato le regole generate su un corpus portoghese brasiliano). In effetti, puoi persino scrivere il set di regole interamente da solo. In breve, mentre un tagger Brill è utile come ultimo passaggio in un solido sistema di tagger in cascata, in generale non è la migliore alternativa da utilizzare da solo (se si desidera utilizzare un tagger singolo, vorrei suggerire di andare con uno HMM). Il mio suggerimento è di addestrare e utilizzare un tagger Brill sull'output tagged di un altro tagger, preferibilmente un sistema combinato come quello votante (cioè, quando si impostano tre o quattro tagger diversi, utilizzare un sistema di voto per selezionare il tag migliore per ogni token e solo in seguito si forniscono questi risultati a un tagger Brill che si spera possa correggere gli errori più comuni del sistema precedente).

+0

NLTK supporta i sistemi di votazione? Attualmente sto sperimentando con taggatori POS NLTK, ma usando un arrangiamento a cascata backoff. Devo ancora aggiungere un tagger Markov. – winwaed

1

Alcuni suggerimenti per migliorare il tagger di Brill sono stati presentati nei documenti "Indipendenza e impegno: presupposti per una rapida formazione ed esecuzione di Tagger POS basati su regole" e "Apprendimento basato sulla trasformazione nella corsia veloce". Inoltre, il toolkit POS e morfologico di etichettatura basato su regole RDRPOSTagger fornisce anche miglioramenti per il tagger di Brill, in cui le regole basate sulla trasformazione sono memorizzate sotto forma di un albero decisionale binario. Quindi RDRPOSTagger ottiene una formazione e tagging rapidissime con una precisione migliore di quella di Brill. Vedere i risultati here.

Problemi correlati