Q

Stanford POS Tagger non codifica testo cinese

2013-04-18 13 views 5 likes

5

Sto usando Stanford POS Tagger (per la prima volta) e mentre tag correttamente l'inglese, non sembra riconoscere (semplificato) il cinese anche quando si modifica il parametro del modello. Ho trascurato qualcosa?Stanford POS Tagger non codifica testo cinese

Ho scaricato e scompattato l'ultima versione da qui: http://nlp.stanford.edu/software/tagger.shtml

Poi ho inputed testo di esempio nel "campione-input.txt".

这是一个测试的句子这是另一个句子.

Poi ho semplicemente eseguire

modelli ./stanford-postagger.sh/campione cinese-distsim.tagger. -input.txt

L'output previsto è di taggare ciascuna parola con una parte di discorso, ma invece riconosce l'intera stringa di testo come una parola :

proprietà Caricamento predefinite dai modelli tagger/cinese-distsim.tagger

lettura POS modello tagger dai modelli/chinese-distsim.tagger ... fatto [3,5 sec].

這是一個測試的句子. 這是另一個句子. # NR

etichettate 1 parole al 30.30 di parole al secondo.

Apprezzo qualsiasi aiuto.

2013-04-18 Ryan Rapp

+0

Inoltre, ho già controllato che il file e le impostazioni siano in UTF-8. Ho anche provato con diversi testi di esempio. –

A

risposta

6

Ho finalmente realizzato che la tokenizzazione/segmentazione non è inclusa in questo tagger di posizione. Sembra che le parole debbano essere delimitate dallo spazio prima di darle al tagger. Per chi è interessato a massima parola di segmentazione entropia di cinese, c'è un pacchetto separato disponibile qui:

http://nlp.stanford.edu/software/segmenter.shtml

Grazie a tutti.

2013-04-18 21:14:31

+2

sì, è necessario passare al segmenter prima di passare al tagger POS. – alvas

Problemi correlati