Questo funziona, ma solo con ASCII. Se si utilizzano caratteri unicode al di fuori dell'intervallo ASCC, si avranno problemi (dato che ogni carattere viene inserito in un byte, anziché una parola completa consentita da UTF-8). Puoi eseguire il typecast qui sotto perché sai che l'UTF-8 non supererà un byte se hai garantito che l'input è fondamentalmente ASCII (come dici nei tuoi commenti).
package sample;
import java.io.UnsupportedEncodingException;
public class UnicodeSample {
public static final int HEXADECIMAL = 16;
public static void main(String[] args) {
try {
String str = "\\u0068\\u0065\\u006c\\u006c\\u006f\\u000a";
String arr[] = str.replaceAll("\\\\u"," ").trim().split(" ");
byte[] utf8 = new byte[arr.length];
int index=0;
for (String ch : arr) {
utf8[index++] = (byte)Integer.parseInt(ch,HEXADECIMAL);
}
String newStr = new String(utf8, "UTF-8");
System.out.println(newStr);
}
catch (UnsupportedEncodingException e) {
// handle the UTF-8 conversion exception
}
}
}
Ecco un'altra soluzione che risolve il problema di lavorare solo con caratteri ASCII. Funzionerà con qualsiasi carattere Unicode nella gamma UTF-8 invece che ASCII solo nei primi 8 bit dell'intervallo. Grazie alla menzogna per le domande. Mi hai fatto pensare di più al problema e alla soluzione.
package sample;
import java.io.UnsupportedEncodingException;
import java.util.ArrayList;
public class UnicodeSample {
public static final int HEXADECIMAL = 16;
public static void main(String[] args) {
try {
String str = "\\u0068\\u0065\\u006c\\u006c\\u006f\\u000a\\u3fff\\uf34c";
ArrayList<Byte> arrList = new ArrayList<Byte>();
String codes[] = str.replaceAll("\\\\u"," ").trim().split(" ");
for (String c : codes) {
int code = Integer.parseInt(c,HEXADECIMAL);
byte[] bytes = intToByteArray(code);
for (byte b : bytes) {
if (b != 0) arrList.add(b);
}
}
byte[] utf8 = new byte[arrList.size()];
for (int i=0; i<arrList.size(); i++) utf8[i] = arrList.get(i);
str = new String(utf8, "UTF-8");
System.out.println(str);
}
catch (UnsupportedEncodingException e) {
// handle the exception when
}
}
// Takes a 4 byte integer and and extracts each byte
public static final byte[] intToByteArray(int value) {
return new byte[] {
(byte) (value >>> 24),
(byte) (value >>> 16),
(byte) (value >>> 8),
(byte) (value)
};
}
}
Questo non è UTF-8; è solo una stringa che contiene la rappresentazione di escape Unicode. –