2013-04-18 13 views
5

Sto usando Stanford POS Tagger (per la prima volta) e mentre tag correttamente l'inglese, non sembra riconoscere (semplificato) il cinese anche quando si modifica il parametro del modello. Ho trascurato qualcosa?Stanford POS Tagger non codifica testo cinese

Ho scaricato e scompattato l'ultima versione da qui: http://nlp.stanford.edu/software/tagger.shtml

Poi ho inputed testo di esempio nel "campione-input.txt".

这 是 一个 测试 的 句子 这 是 另一个 句子.

Poi ho semplicemente eseguire

modelli ./stanford-postagger.sh/campione cinese-distsim.tagger. -input.txt

L'output previsto è di taggare ciascuna parola con una parte di discorso, ma invece riconosce l'intera stringa di testo come una parola :

proprietà Caricamento predefinite dai modelli tagger/cinese-distsim.tagger

lettura POS modello tagger dai modelli/chinese-distsim.tagger ... fatto [3,5 sec].

這 是 一個 測試 的 句子. 這 是 另一個 句子. # NR

etichettate 1 parole al 30.30 di parole al secondo.

Apprezzo qualsiasi aiuto.

+0

Inoltre, ho già controllato che il file e le impostazioni siano in UTF-8. Ho anche provato con diversi testi di esempio. –

risposta

6

Ho finalmente realizzato che la tokenizzazione/segmentazione non è inclusa in questo tagger di posizione. Sembra che le parole debbano essere delimitate dallo spazio prima di darle al tagger. Per chi è interessato a massima parola di segmentazione entropia di cinese, c'è un pacchetto separato disponibile qui:

http://nlp.stanford.edu/software/segmenter.shtml

Grazie a tutti.

+2

sì, è necessario passare al segmenter prima di passare al tagger POS. – alvas

Problemi correlati