Ho un programma che legge un po 'di testo e lo analizza. Il testo può essere in qualsiasi lingua, ma ho bisogno di testare giapponese e cinese specificamente per analizzarli in un modo diverso.Test per i caratteri giapponesi/cinesi in una stringa
Ho letto che posso testare ogni carattere sul suo numero unicode per scoprire se è nell'intervallo di caratteri CJK. Questo è utile, tuttavia vorrei separarli se possibile per elaborare il testo con dizionari diversi. C'è un modo per testare se un personaggio è giapponese o cinese?
Non si conosce il codice di set, o devi indovinare anche questo? –
Se non conosci il set di codici, potrebbe davvero semplificarti la vita piuttosto che avere tutto in unicode – Elijah
Mi arrendo convertendo tutto in unicode comunque per l'analisi (sono forzato in realtà) .Sento in grado di rilevare il codeset prima della conversione, questa domanda è maggiore se il codeset è già unicode – landyman