UTF-8 è sufficiente per tutte le lingue comuni?

Volevo solo sviluppare un'applicazione di traduzione in un progetto Django che consenta agli utenti registrati con determinate autorizzazioni di tradurre ogni singolo messaggio che appare nell'ultima versione.UTF-8 è sufficiente per tutte le lingue comuni?

La mia domanda è, quale set di caratteri dovrei usare per le tabelle del database in questa applicazione di traduzione? Sembra che alcuni caratteri della lingua europea non possano essere memorizzati in UTF-8?

fonte

2010-03-13 jack

UTF-8 è uno schema di codifica per Unicode. Tutti i caratteri Unicode possono essere scritti in UTF-8. "È in grado di rappresentare qualsiasi carattere nello standard Unicode" http://en.wikipedia.org/wiki/UTF-8. Cosa stai chiedendo? Se UTF-8 codifica tutti i caratteri Unicode? –

sono curioso ... quali sarebbero i caratteri di lingua europea? – hop

Sembra che alcuni caratteri della lingua europea non possano essere memorizzati in UTF-8?

Non vero. UTF-8 può memorizzare qualsiasi set di caratteri senza limitazioni tranne forse per Klingon. UTF-8 è il tuo sportello unico per l'internazionalizzazione. Se hai problemi con i caratteri, è più probabile che si verifichino problemi di codifica o manca il supporto per quell'intervallo di caratteri nel font che stai usando per visualizzare i dati (Estremamente improbabile per un carattere di lingua europea, ma comune ad es. siti indiani su un computer europeo.Vedere anche this question)

Se non è possibile eseguire il rendering di un set di caratteri non occidentali, è possibile che il font incorporato dell'utente non includa tale intervallo di UTF-8.

Aggiornamento: Klingon è infatti non fa parte del official UTF-8:

Alcuni script inventati moderni che non sono ancora stati inclusi in Unicode (ad esempio, Tengwar) o che non possono essere per l'inclusione in Unicode causa per mancanza di uso del mondo reale (ad esempio, Klingon) sono elencati nel Con Unicode Registry Registry, insieme a assegnazioni di codici di Area di utilizzo privata non ufficiali ma ampiamente utilizzati.

Tuttavia, v'è un volunteer project che ha ufficialmente, assegnato punti di codice F8D0-F8FF nell'area privata a Klingon. Gallery of Klingon characters

fonte

2010-03-13 15:37:59

Se qualcuno ha scritto un addendum in Unicode contenente punti codice per l'alfabeto Klingon, questo potrebbe anche essere espresso con UTF-8. O potresti semplicemente usare un'area di uso privato e creare un font che si associ a quei punti di codice. –

@Williham è stato fatto: Klingon (F8D0-F8FF) http://en.wikipedia.org/wiki/ConScript_Unicode_Registry –

UTF-8 può essere utilizzato per rappresentare tutto Unicode, quindi non consente di esprimere tutte le lingue comuni. Permette di esprimere tutte le lingue.

Se sembra che alcuni caratteri europei non funzionino, questo è un problema di codifica.

fonte

2010-03-13 15:37:52

UTF-8 è sufficiente per tutte le lingue comuni?

risposta

Problemi correlati