2013-06-14 11 views
21

Titolo praticamente riassume la domanda. Ho notato che in alcuni documenti le persone hanno fatto riferimento a uno schema di codifica BILOU per NER rispetto al tipico schema di tagging BIO (come questo documento di Ratinov e Roth nel 2009 http://cogcomp.cs.illinois.edu/page/publication_view/199)Cosa significano le etichette BILOU nel riconoscimento di entità nominali?

Dal lavoro con i dati del CoNLL 2003 so che

B stands for 'beginning' (signifies beginning of an NE) 
I stands for 'inside' (signifies that the word is inside an NE) 
O stands for 'outside' (signifies that the word is just a regular word outside of an NE) 

Mentre mi è stato detto che le parole Bilou stanno per

B - 'beginning' 
I - 'inside' 
L - 'last' 
O - 'outside' 
U - 'unit' 

ho visto anche persone di riferimento un altro tag

E - 'end' 

e utilizzarlo contemporaneamente al tag "last".

Sono abbastanza nuovo nella letteratura NER, ma non sono riuscito a trovare qualcosa che spiegasse chiaramente questi tag. Le mie domande riguardano in particolare la differenza tra i tag 'last' e 'end' e il tag 'unit'.

+0

si può mettere i riferimenti su "Ho visto anche persone fai riferimento ad un altro tag "? – Daniel

risposta

15

Sulla base di un issue e patch in chiaro TK, sembra che Bilou sta per "Beginning, Dentro e ultimi segni di pezzi multi-gettone, pezzi unità di lunghezza e Outside" (enfasi aggiunta). Ad esempio, la suddivisione in blocchi indicati con staffe

(foo foo foo) (bar) no no no (bar bar) 

possono essere codificati con bilou come

B-foo, I-foo, L-foo, U-bar, O, O, O, B-bar, L-bar 
+3

Avevo la sensazione che fosse così. Sembra uno strano cambiamento perché le stesse identiche informazioni possono essere comunicate solo con i tag BIO. Immagino che il passaggio a BILOU sia stato fatto di più per aumentare le prestazioni dell'algoritmo ML .. – GrantD71

+0

vero, ma i confini BILOU sarebbero quindi impliciti. Puoi anche sostenere che l'utilizzo di un solo tag funzionerà allo stesso modo. Di solito i tag aggiuntivi forniscono informazioni più utili dopo la classificazione per l'interpretazione di casi limite problematici. –

9

desidero aggiungere qualche esperienza confrontando regimi BIO e Bilou. Il mio esperimento era su un solo set di dati e potrebbe non essere rappresentativo.

Il mio set di dati contiene circa 35 mila frasi brevi (2-10 token) e sono annotate utilizzando 11 tag diversi. In altre parole, ci sono 11 entità con nome.

Le funzioni utilizzate includono la parola, sinistra e destra 2 grammi, 1-5 caratteri ngram (tranne quelli di mezzo), le caratteristiche della forma e così via. Poche entità sono supportate anche dai dizionari geografici.

Ho rimescolato il set di dati e diviso in 80/20 parti: addestramento e test. Questo processo è stato ripetuto 5 volte e per ogni entità ho registrato Precision, Recall e F1-measure. La performance è stata misurata a livello di entità, non a livello di gettone come in Ratinov & Roth, documento del 2009.

Il software che ho usato per addestrare un modello è CRFSuite. Ho usato il solver L-BFGS con c1 = 0 e c2 = 1.

Prima di tutto, i risultati del test confrontati per le 5 pieghe sono molto simili. Ciò significa che vi è poca variabilità dall'inizio alla fine, il che è positivo. In secondo luogo, lo schema BIO ha funzionato in modo molto simile allo schema BILOU. Se c'è qualche differenza significativa, forse è alla terza o quarta cifra dopo il periodo in Precision, Recall e F1-measures.

Conclusione: Nel mio esperimento lo schema BILOU non è migliore (ma anche non peggiore) dello schema BIO.

Problemi correlati