2011-06-08 22 views
10

Ho sentito dire che alcuni personaggi non sono presenti nello standard Unicode nonostante siano scritti nella vita di tutti i giorni da popolazioni di alcune aree. Soprattutto ho sentito parlare dei recenti nomi cinesi inventati assemblando parti di personaggi esistenti, ma non riesco a trovare alcun riferimento a questo.Quali caratteri NON sono presenti in Unicode?

Per esempio, il personaggio sotto è molto comune per le 50 milioni di persone, eppure è not in Unicode:

enter image description here

Esiste un elenco di tali personaggi? (immagini o siti Web che elencano caratteri come immagini)

+2

il carattere criptico e strano che ho appena disegnato sul mio taccuino con una matita. ;) –

+0

Questo: http://en.wikipedia.org/wiki/File:Prince_logo.svg Anche se è più una trovata pubblicitaria che un personaggio reale. – Piskvor

+0

Si potrebbe voler restringere la domanda per escludere risposte come quella di Nick. – dan04

risposta

0

È naturale che Unicode non riesca a raggiungere alcuni nuovi caratteri ideografici o alcuni simboli usati raramente.

Ma non riesco a capire la ragione dietro la domanda. È possibile disegnare qualsiasi simbolo casuale che si desidera, esso, molto probabilmente, non sarà un carattere standard Unicode.

Oppure è solo curiosità?

+0

Buoni punti, ma questo dovrebbe essere un commento, in quanto non risponde alla domanda. – sleske

+0

Solo curiosità :-) Piuttosto che un simbolo casuale, stavo cercando personaggi, scritti da persone reali nella loro vita quotidiana, come quelli elencati nel PDF citato da Ólafur Waage. –

2

Here's a little W3C article su cosa fare con caratteri unicode mancanti.

Here's a PDF document di alcuni caratteri mancanti in Unicode 4,1

And here's a little neat unicode navigator.

Spero che questo aiuti un po '.

+0

Ci scusiamo, ma il tuo "need little unicode navigator" è completamente sbagliato. In un errore tipico di MS, ha erroneamente sostituito i controlli C1 con Microsoft CP1252. Ad esempio, U + 0091 è in realtà Pʀɪᴠᴀᴛᴇ Usᴇ Oɴᴇ, ma lo hanno elencato come Lᴇꜰᴛ Sɪɴɢʟᴇ Qᴜᴏᴛᴀᴛɪᴏɴ Mᴀʀᴋ, che in realtà è U + 2018. Penso che troverai [uninames] (http://training.perl.com/scripts/uninames), [uniprops] (http://training.perl.com/scripts/uniprops), [unichars] (http://training.perl.com/scripts/unichars) e [tutto il resto] (http://training.perl.com/scripts/) per essere molto più utile e preciso. – tchrist

+0

@tchrist bene, mi dispiace allora. –

+1

Questo è in realtà un problema del browser: il sito utilizza '& # x (un valore esadecimale);' per ottenere il carattere, e '' € -' F; '* dovrebbe * rappresentare i codici di controllo C1. Ma nei browser attuali, per fastidiosi motivi di compatibilità, la scrittura di un riferimento di carattere con un valore nell'intervallo 0x80-0x9F converte in modo silenzioso il carattere in quello che otterresti per quei valori di byte in CP1252. Quindi, se si esegue 'document.body.innerHTML = '€'' e si legge 'document.body.innerHTML.charCodeAt (0)', si ottiene effettivamente 0x20AC, non 0x80. Questo non succede in modalità XHTML. – bobince

5

Bene, ci sono un sacco di cose non presenti in Unicode (anche se i nuovi caratteri vengono ancora aggiunti).

Alcuni esempi:

  • causa Han Unification, Unicode utilizza uno codepoint per diversi personaggi simili da diverse lingue. Le persone non sono d'accordo sul fatto che questi personaggi siano realmente "uguali"; se credi che dovrebbero essere rappresentati separatamente, allora si potrebbe dire che queste rappresentazioni separate sono "mancanti" (sebbene si tratti di una questione filosofica).
  • Allo stesso modo, molte lingue (in particolare le lingue asiatiche) a volte hanno diverse varianti di un carattere/glifo. La distinzione tra "un personaggio con diverse rappresentazioni" (= un codepoint) e "caratteri distinti" (= diversi codepoint) è in qualche modo arbitraria, quindi ci sono casi (ad esempio con caratteri Kanji) in cui alcune persone ritengono che le varianti alternative siano "mancanti".
  • Mancano molti caratteri storici e usati raramente.
  • Molti script vecchi/storici non sono coperti, ad es. Linear A
+3

Credo che i selettori di variazione ~ 260 abbiano lo scopo di indirizzare i primi due proiettili. I loro punti di codice sono 180B-180D (abbreviato FVS1-3), 303E (ɪᴅᴇᴏɢʀᴀᴘʜɪᴄ ᴠᴀʀɪᴀᴛɪᴏɴ sᴇʟᴇᴄᴛᴏʀ, IVS), FE00-FE0F (VS1-VS16), e E0100-E01EF (VS17-VS256). In realtà IVS è diverso: conta come '\ p {Other_Symbol}' e '\ p {Grapheme_Base}', mentre le altre sono '\ p {Nonspacing_Mark}', '\ p {Grapheme_Extend}', '\ p {Default_Ignorable_Code_Point} ', e' \ p {Variation_Selector} '. Non so per cosa sia realmente l'IVS. Scriptwise, FVS1-3 sono '\ p {Mongolian}', IVS è '\ p {Common}', e VS1-256 sono '\ p {Inherited}'. Spero che questo ti aiuti. – tchrist

1

Ci sono tonnellate di personaggi della parte simbolo dello standard che non sono fastidiosamente inclusi.

Vedere la sezione "Versioni simmetriche mancanti" di http://xahlee.org/comp/unicode_arrows.html per un gruppo di simboli freccia esistenti, ma solo in determinate direzioni. Alcuni sono semplicemente stupidi. Ad esempio, ci sono ⥂, ⥃ e ⥄, ma non esiste una versione di puntamento a destra dell'ultimo.

E potete vedere dallo http://en.wikipedia.org/wiki/Unicode_subscripts_and_superscripts che hanno scelto in modo casuale quali lettere supportare in formato super e sotto-script. Ad esempio, includono le vocali degli abbonati a, e, o, e anche schwa (ə), ma non io, che sarebbe molto utile, in quanto è un indice comune in composizione matematica. Date un'occhiata all'articolo di Wikipedia per maggiori dettagli (avrete bisogno di un font unicode installato, perché almeno al momento in cui scriviamo gli equivalenti ascii regolari non sono elencati esplicitamente), ma in pratica hanno scelto circa la metà dell'alfabeto latino apparentemente a caso per ciascuno dei caratteri super e sub-script maiuscoli e minuscoli.

Inoltre, un sacco di simboli che sarebbe conveniente per la costruzione di forme con unicode non esistono.

Problemi correlati