Algoritmi a capo automatico per il giapponese

In una recente applicazione Web che ho creato, sono rimasto piacevolmente sorpreso quando uno dei nostri utenti ha deciso di utilizzarlo per creare qualcosa interamente in giapponese. Tuttavia, il testo era avvolto in modo strano e goffamente. Apparentemente i browser non affrontano molto bene il wrapping del testo giapponese, probabilmente perché contiene pochi spazi, poiché ogni personaggio forma una parola intera. Tuttavia, questo non è un presupposto sicuro da fare in quanto alcune parole sono costituite da più personaggi, e non è sicuro rompere alcuni gruppi di caratteri in linee diverse.Algoritmi a capo automatico per il giapponese

Googling in giro non mi ha davvero aiutato a capire meglio il problema. Mi sembra che uno abbia bisogno di un dizionario di schemi indissolubili e supponga che ovunque sia sicuro infrangere. Ma temo di non sapere abbastanza del giapponese per conoscere davvero tutte le parole, che capisco da alcune delle mie ricerche, sono piuttosto complicate.

Come affronteresti questo problema? Esistono librerie o algoritmi di cui sei a conoscenza che esistono già che trattano questo in modo soddisfacente?

fonte

2010-01-19 Breton

duplicato esatto http://stackoverflow.com/questions/1605353/how-does-one-word-break-languages-without-spaces-between-words-like-asian-langua – Breton

Penso che non si possa dire avvolgere giapponese senza capire le parole, quindi quello che ti servirà come minimo è un dizionario giapponese. Non potrei dirti quanto sarebbe difficile se o se ci fosse qualche ambiguità (il che significa che la parola corretta dipende dal contesto, che la complicherà enormemente). – cletus

non proprio duplicato: la domanda riguarda la suddivisione del testo in parole ai fini dell'indicizzazione. Questo è un problema difficile. Fortunatamente, può essere ampiamente ignorato quando si esegue il wrapping per il layout. –

Le regole a capo automatico giapponese sono chiamate kinsoku shori e sono sorprendentemente semplici. In realtà sono in gran parte interessati ai caratteri di punteggiatura e non cercano di mantenere le parole intere.

Ho appena controllato con un romanzo giapponese e in effetti entrambe le parole nella sceneggiatura kana sillabica e quelle composte da più ideogrammi cinesi sono avvolte a metà parola con impunità.

fonte

2010-01-19 00:57:03

L'ho appena provato su Yahoo Japan. Sembra che Firefox implementa il kinsoku shori. Non ho potuto ottenere una linea per iniziare con una parentesi di chiusura (che è tutto ciò che ho controllato). Con Safari, potrei. – Thilo

Come per il modulo di commento @ Michael, ho scoperto che le regole di wrapping sono diverse per il caso giapponese. Poiché sto affrontando un problema relativo al wrapping di contenuti giapponesi durante il rendering di html in PDF, esiste un modo per avvolgere il giapponese utilizzando i CSS o altri modi? – lambypie

Giusto per chiarire, @Michael non sta dicendo che l'interruzione di riga è un free-for-all. Esistono regole specifiche su come eseguire interruzioni di riga e casi in cui non sono consentite interruzioni di riga. L'articolo di Wikipedia a cui si collega è molto utile. – mercurytw

Algoritmi a capo automatico per il giapponese

risposta

Problemi correlati