Quali sono i punti deboli e i punti di forza di Brill Tagger? Puoi suggerire alcuni possibili miglioramenti per il tagger?Tagging vocale di base basato sulla trasformazione (Brill Tagging)
risposta
Il più grande punto debole di un tagger Brill è il tempo necessario per la fase di addestramento (date un'occhiata ai timestamp per ACOPOST here o provate a implementarne uno con NLTK per avere un'idea). Ricorda che dovresti sempre considerare un tagger di Brill come l'ultimo tagger da utilizzare in una sequenza di sistemi di tagging (per un semplice tag di solito uso e formo un tagger di Brill sull'output di un tagger HMM). Oltre a rendere la fase di addestramento ancora più lunga, utilizzare da solo un tagger Brill genera generalmente un insieme di regole molto grandi, normalmente sovrapposte e talvolta "errate" (cioè regole che nei contesti di tag "veri" frenano molti tag corretti).
Il più grande punto di forza di un tagger di Brill è il fatto che il suo modello ha un senso, in particolare quando si memorizzano le regole in un formato leggibile dall'uomo come generalmente viene fatto. Per ispezionare manualmente il modello di un tagger statistico è noioso, soggetto a errori e non molto utile, mentre un set di regole di trasformazione non solo può essere compreso e ottimizzato manualmente, ma ciò può essere fatto anche da persone senza esperienza precedente in NLP (in effetti, ho fatto anni fa quando alcuni studenti universitari di un programma linguistico hanno valutato le regole generate su un corpus portoghese brasiliano). In effetti, puoi persino scrivere il set di regole interamente da solo. In breve, mentre un tagger Brill è utile come ultimo passaggio in un solido sistema di tagger in cascata, in generale non è la migliore alternativa da utilizzare da solo (se si desidera utilizzare un tagger singolo, vorrei suggerire di andare con uno HMM). Il mio suggerimento è di addestrare e utilizzare un tagger Brill sull'output tagged di un altro tagger, preferibilmente un sistema combinato come quello votante (cioè, quando si impostano tre o quattro tagger diversi, utilizzare un sistema di voto per selezionare il tag migliore per ogni token e solo in seguito si forniscono questi risultati a un tagger Brill che si spera possa correggere gli errori più comuni del sistema precedente).
Alcuni suggerimenti per migliorare il tagger di Brill sono stati presentati nei documenti "Indipendenza e impegno: presupposti per una rapida formazione ed esecuzione di Tagger POS basati su regole" e "Apprendimento basato sulla trasformazione nella corsia veloce". Inoltre, il toolkit POS e morfologico di etichettatura basato su regole RDRPOSTagger fornisce anche miglioramenti per il tagger di Brill, in cui le regole basate sulla trasformazione sono memorizzate sotto forma di un albero decisionale binario. Quindi RDRPOSTagger ottiene una formazione e tagging rapidissime con una precisione migliore di quella di Brill. Vedere i risultati here.
- 1. Strategia Mercurial Tagging/Branching
- 2. Tagging query con group_concat
- 3. Amazon SQS Tagging
- 4. Tagging di interfacce in Java
- 5. Best Rails Tagging Plugin/Gem
- 6. Solr filtri multipli di tagging/escluso
- 7. Tagging di un progetto GitHub tramite Jenkins
- 8. Gestione dipendenze .NET e tagging/ramificazione
- 9. Come ottenere tagging POS utilizzando Stanford Parser
- 10. NLTK multilingue per tagging POS e Lemmatizer
- 11. wordnet lemmatization e pos tagging in python
- 12. Tagging di file mkv con immagini di copertina?
- 13. Come implementare un plug-in di tagging per jQuery
- 14. Tagging degli elementi di lavoro in TFS 2010
- 15. Generazione di una chiave GPG per git tagging
- 16. Ottenere rails tagging plugin per lavoro mi rende Hulk-angry
- 17. Interfacce o attributi per il tagging delle classi?
- 18. Esiste una soluzione intelligente per il tagging PHP Emacs?
- 19. Come far funzionare Cache Tagging con FOSHttpCacheBundle e Varnish?
- 20. Quali vantaggi offre Django-Taggit rispetto a un'implementazione di tagging ManyToManyField() semplice?
- 21. jQuery plug-in di tagging automatico come i tag di input di StackOverflow?
- 22. Tagging di file con colori in OS X Finder da script di shell
- 23. TeamCity + MSBuild: tagging di una distribuzione con un numero di build VCS
- 24. Consigli per la modellazione dei dati per il sistema di tagging blog su Google App Engine
- 25. Ho bisogno di un esempio per capire Tagging Implicito in ASN.1
- 26. Prestazioni lente del tagging POS. Posso fare una specie di pre-riscaldamento?
- 27. Subversion: il trunk può essere resettato alla revisione precedente dopo la branching/tagging?
- 28. Come ottenere la forma infinita del verbo utilizzando NLTK (pos tagging)
- 29. Ordinamento basato sulla prima colonna e quindi sulla colonna successiva
- 30. Timezone Retrieval basato sulla posizione
NLTK supporta i sistemi di votazione? Attualmente sto sperimentando con taggatori POS NLTK, ma usando un arrangiamento a cascata backoff. Devo ancora aggiungere un tagger Markov. – winwaed