- Stick in Unicode e UTF-8 in tutto il mondo.
- Stai lontano dalle codifiche giapponesi native: euc-jp, shiftjis, iso-2022-jp, ma tieni presente che probabilmente li incontrerai ad un certo punto se continui.
- Acquisire familiarità con un segmentatore per eseguire operazioni complicate come l'analisi POS, la segmentazione delle parole, ecc. Gli strumenti standard utilizzati dalla maggior parte delle persone che lavorano su PNL (elaborazione del linguaggio naturale) sono in ordine di popolarità/potenza.
MeCab (originariamente su SourceForge) è impressionante: essa consente di scattare testo come,
「日本語は、とても難しいです。」
e ottenere tutti i tipi di informazioni grande indietro
kettle:~$ echo 日本語は、難しいです | mecab
日本語 名詞,一般,*,*,*,*,日本語,ニホンゴ,ニホンゴ
は 助詞,係助詞,*,*,*,*,は,ハ,ワ
、 記号,読点,*,*,*,*,、,、,、
難しい 形容詞,自立,*,*,形容詞・イ段,基本形,難しい,ムズカシイ,ムズカシイ
です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
EOS
che è fondamentalmente una dettagliata run-down delle parti-of-speech, letture, pronunce, ecc. Ti farà anche il favore di analizzare i tempi verbali,
kettle:~$ echo メキシコ料理が食べたい | mecab
メキシコ 名詞,固有名詞,地域,国,*,*,メキシコ,メキシコ,メキシコ
料理 名詞,サ変接続,*,*,*,*,料理,リョウリ,リョーリ
が 助詞,格助詞,一般,*,*,*,が,ガ,ガ
食べ 動詞,自立,*,*,一段,連用形,食べる,タベ,タベ
たい 助動詞,*,*,*,特殊・タイ,基本形,たい,タイ,タイ
EOS
Tuttavia, la documentazione è tutto in giapponese, ed è un po 'complicato da configurare e capire come formattare l'output nel modo desiderato. Ci sono pacchetti disponibili per Ubuntu/Debian, e le associazioni in un mucchio di lingue, tra cui Perl, Python, Ruby ...
Apt-Repos per Ubuntu:
deb http://cl.naist.jp/~eric-n/ubuntu-nlp intrepid all
deb-src http://cl.naist.jp/~eric-n/ubuntu-nlp intrepid all
pacchetti da installare: $ apt-get install mecab-ipadic-utf8 mecab python-mecab
dovrebbe fare il trucco credo.
Le altre alternative a mecab sono, ChaSen, che è stata scritta anni fa dall'autore di MeCab (che funziona incidentalmente su Google ora) e Kakasi, che è molto meno potente.
Cercherò sicuramente di evitare di far rotolare le tue routine di coniugazione. il problema con questo è solo che richiederà tonnellate e tonnellate di lavoro, che altri hanno già fatto, e coprire tutti i casi limite con le regole è, alla fine della giornata, impossibile.
MeCab è statisticamente guidato e addestrato su un sacco di dati. Impiega una sofisticata tecnica di machine learning chiamata campi casuali condizionali (CRF) ed i risultati sono davvero buoni.
Divertiti con il giapponese. Non sono sicuro di quanto sia buono il tuo giapponese, ma se hai bisogno di aiuto con i documenti per mecab o qualsiasi altra cosa sentiti libera di chiedere anche a questo. Kanji può essere piuttosto intimidatorio all'inizio.
stai guardando una qualche forma di deriva? Perdonate la mia ignoranza, ma questo sembra più difficile (per un linguaggio logografico) di quello che fareste per un normale linguaggio basato sull'alfabeto. – dirkgently
No, non nell'esempio la parola radice è fondamentalmente け す ma sto cambiando il す in し e aggiungendo て. Un altro esempio è の む cambiando il む a ん で per ottenere の ん で. Un esempio più semplice potrebbe essere.た べ る che si dovrebbe cadere il る e aggiungere て per ottenere た べ て. Speriamo che questo abbia più senso. – percent20
I tuoi esempi (stranamente!) Mi danno un'idea (che sono sicuro sia sbagliata) che tutto ciò che vuoi è una stringa replacemnet. Funzionerebbe anche l'espressione regolare (Unicode). – dirkgently