2012-11-06 13 views
5

Desidero trovare caratteri visivamente identici per un carattere specifico in Unicode. So come trovare le decomposizioni canoniche o di compatibilità di un personaggio; ma non mi danno quello che voglio. Voglio trovare caratteri visivamente identici (non simili), e la loro unica differenza possono essere le loro dimensioni.Caratteri visivamente identici in Unicode

ad esempio Voglio: (s, S) o (S, S) (i cui punti di codice sono diversi). Non voglio (ß, β) o (e, é).

Qualche suggerimento? Grazie.

+2

Unicode non specifica l'aspetto dei caratteri. Questo è un problema di carattere. (Lo standard usa le immagini _presentative_, ma non fanno parte dello standard.) Ad esempio, vuoi il maiuscolo I e il numero 1 e il minuscolo l tutti insieme? In alcuni tipi di carattere sono identici e in altri tipi di carattere sono tutti distinti. –

risposta

5

Per un determinato carattere, è possibile iniziare dalle annotazioni nelle tabelle del codice nello standard Unicode. Le annotazioni si riferiscono spesso ad altri personaggi per vari motivi, inclusa la somiglianza o l'identità della forma. Ma le annotazioni non sono pensate per coprire tutto.

Puoi anche disegnare il tuo personaggio allo http://shapecatcher.com/ e chiedere di riconoscerlo. Spesso ottieni una lunga lista di alternative visivamente simili.

Come @TedHopp scrive nel suo commento, l'identità visiva dipende dal tipo di carattere. Ad esempio, "s" e "S" non devono necessariamente essere di forma identica; nella maggior parte dei font, non lo sono - la forma base è la stessa, ma ci sono varie differenze nella variazione della larghezza del tratto, curvatura, serif, ecc. Tuttavia, alcuni caratteri possono essere visivamente identici in qualsiasi font che li contenga, ad esempio come capitale latina A, capitale greca alfa Α, e capitale cirillica А.

Non hai specificato lo scopo dello studio, ma potresti fare qualcosa che è stato realizzato in qualche misura dal Consorzio Unicode. Vedere UTR #6, Considerazioni Unicode sicurezza, che contiene anche riferimenti a lavori connessi, tra cui UTS #9, Unicode sicurezza Meccanismi, che contiene confusables.txt, Raccomandato mappatura confondibile per IDN (ad esempio, per un particolare contesto, ma può essere di interesse anche per altri scopi).