2011-12-13 13 views
9

C'è un modo per gestire caratteri unicode come \ u0016 in XML? Secondo la mia comprensione, il caricamento di tali caratteri in XMLDocument genera un errore di carattere esadecimale non valido. Ho provato con altri caratteri Unicode. Sembrano funzionare bene. Solo i caratteri di controllo causano questo errore. Possiamo rimuovere questi caratteri senza analizzare effettivamente l'XML?Caratteri Unicode come u0016 in XML

+1

Perché avete bisogno di usare U + 0016 in XML? È un carattere legacy utilizzato per il controllo della trasmissione, non un carattere di testo. –

risposta

2

Non è possibile utilizzare i caratteri di controllo direttamente in XML. Se è necessario memorizzare i dati binari nel file XML, è possibile codificarlo con Base 64. In questo modo è possibile memorizzare le immagini, ...

+0

O se volevano davvero codificare U + 0016 piuttosto che quell'ottetto, quindi qualcosa come '' per indicare la stessa semantica. –

18

I caratteri sono indicati utilizzando la notazione usata nello standard Unicode, vale a dire, un optional U + seguito dal numero esadecimale, utilizzando almeno 4 cifre, come U+1234 o U+10FFFD. In XML o HTML questo può essere espresso come ሴ o 􏿽.

da Unicode Technical Report.

caratteri validi in XML:

Char :: = # x9 | #xA | #xD | [# x20- # xD7FF] | [# xE000- # xFFFD] | [# # X10000- x10FFFF]

da Extensible Markup Language (XML) 1.0 (Fifth Edition)

+4

La quinta edizione della versione 1. Bahahahaha! Mi dispiace, facilmente divertito. –