In una recente applicazione Web che ho creato, sono rimasto piacevolmente sorpreso quando uno dei nostri utenti ha deciso di utilizzarlo per creare qualcosa interamente in giapponese. Tuttavia, il testo era avvolto in modo strano e goffamente. Apparentemente i browser non affrontano molto bene il wrapping del testo giapponese, probabilmente perché contiene pochi spazi, poiché ogni personaggio forma una parola intera. Tuttavia, questo non è un presupposto sicuro da fare in quanto alcune parole sono costituite da più personaggi, e non è sicuro rompere alcuni gruppi di caratteri in linee diverse.Algoritmi a capo automatico per il giapponese
Googling in giro non mi ha davvero aiutato a capire meglio il problema. Mi sembra che uno abbia bisogno di un dizionario di schemi indissolubili e supponga che ovunque sia sicuro infrangere. Ma temo di non sapere abbastanza del giapponese per conoscere davvero tutte le parole, che capisco da alcune delle mie ricerche, sono piuttosto complicate.
Come affronteresti questo problema? Esistono librerie o algoritmi di cui sei a conoscenza che esistono già che trattano questo in modo soddisfacente?
duplicato esatto http://stackoverflow.com/questions/1605353/how-does-one-word-break-languages-without-spaces-between-words-like-asian-langua – Breton
Penso che non si possa dire avvolgere giapponese senza capire le parole, quindi quello che ti servirà come minimo è un dizionario giapponese. Non potrei dirti quanto sarebbe difficile se o se ci fosse qualche ambiguità (il che significa che la parola corretta dipende dal contesto, che la complicherà enormemente). – cletus
non proprio duplicato: la domanda riguarda la suddivisione del testo in parole ai fini dell'indicizzazione. Questo è un problema difficile. Fortunatamente, può essere ampiamente ignorato quando si esegue il wrapping per il layout. –