2010-05-13 14 views
8

Ho una stringa ASCII, con entità HTML, come:Come convertire da HTML a UTF-8 in java

à 
¨ 
ç 

Ho bisogno di questo String essere senza quelle entità e li converte in UTF-8 caratteri . C'è un modo semplice, in Java per farlo?

Dove:

Clazz.method("aà","UTF-8") 

restituisce "AA"

o qualcosa del genere?

+0

Significa invece di "à" che si ha. ? Ad esempio invece di * "c'est-à-dire" * hai * "c'est- -dire" *? (sai che ASCII definisce solo 128 codepoints, giusto? 'à' è ** non ** un carattere ASCII) – SyntaxT3rr0r

+1

ok, ho modificato il tuo post per vedere che si trattava di un problema di codifica nella tua domanda. – SyntaxT3rr0r

+0

Il modo in cui poni la domanda è un po 'strano, perché HTML e UTF-8 sono due cose completamente diverse: HTML è un formato di file mentre UTF-8 è una codifica di caratteri. I file HTML hanno una codifica di caratteri, ad esempio puoi avere un file HTML codificato in UTF-8, codificato ISO-8859-1, ecc. – Jesper

risposta