Sto usando Stanford POS Tagger (per la prima volta) e mentre tag correttamente l'inglese, non sembra riconoscere (semplificato) il cinese anche quando si modifica il parametro del modello. Ho trascurato qualcosa?Stanford POS Tagger non codifica testo cinese
Ho scaricato e scompattato l'ultima versione da qui: http://nlp.stanford.edu/software/tagger.shtml
Poi ho inputed testo di esempio nel "campione-input.txt".
这 是 一个 测试 的 句子 这 是 另一个 句子.
Poi ho semplicemente eseguire
modelli ./stanford-postagger.sh/campione cinese-distsim.tagger. -input.txt
L'output previsto è di taggare ciascuna parola con una parte di discorso, ma invece riconosce l'intera stringa di testo come una parola :
proprietà Caricamento predefinite dai modelli tagger/cinese-distsim.tagger
lettura POS modello tagger dai modelli/chinese-distsim.tagger ... fatto [3,5 sec].
這 是 一個 測試 的 句子. 這 是 另一個 句子. # NR
etichettate 1 parole al 30.30 di parole al secondo.
Apprezzo qualsiasi aiuto.
Inoltre, ho già controllato che il file e le impostazioni siano in UTF-8. Ho anche provato con diversi testi di esempio. –