In sostanza, i testi che si formatta per il processo di formazione dovrebbe avere un gettone su ogni linea, seguita da una scheda, seguito da un identificatore. L'identificatore può essere qualcosa come "LOC" per la posizione, "COR" per la società, o "0" per i token non-entità. Per esempio.
I 0
left 0
my 0
heart 0
in 0
Kansas LOC
City LOC
. 0
Quando il nostro team addestrato una serie di classificatori, ci siamo nutriti ogni file una formazione formattato come questa, con circa 180.000 gettoni, e abbiamo visto un netto miglioramento in termini di precisione, ma un decremento netto di richiamo. (Si noti che l'aumento di precisione non era statisticamente significativo.) Nel caso in cui potrebbe essere utile ad altri, ho descritto il processo che abbiamo usato per addestrare il classificatore e anche i valori p, r e f1 di entrambi addestrati e predefiniti classificatori here.
Quale componente: Tagger Stanford PoS o Stanford NER o Stanford Parser? –
Caro goh, ho la stessa domanda potresti risolvere il tuo problema? Come? – Paniz