Sto scrivendo un'applicazione java; ma bloccato su questo punto.Per dividere solo caratteri cinesi in java
Fondamentalmente ho una stringa di caratteri cinesi con anche alcune possibili caratteri latini o numeri, consente di dire:
查詢促進民間參與公共建設法(210BOT法).
voglio dividere quei caratteri cinesi, tranne il latino o numeri come "BOT" di cui sopra. Così, alla fine avrò questo tipo di lista:
[ 查, 詢, 促, 進, 民, 間, 參, 與, 公, 共, 建, 設, 法, (, 210, BOT, 法, ), ., ]
Come posso risolvere questo problema (per Java)?
Come estensione, credo che una classe di caratteri in un regexp. anche gli intervalli sopra citati in Unicode funzionerebbero. –
Non proprio se si vuole intercettare anche su gruppi di cifre/lettere/trattini/indipendentemente. Un parser stackbased è uno strumento migliore per questo tipo di lavoro. – BalusC
Funziona anche per giapponese e coreano? –