Il codice seguentebug Java? Perché extra zero byte nella codifica utf8?
public class CharsetProblem {
public static void main(String[] args) {
//String str = "aaaaaaaaa";
String str = "aaaaaaaaaa";
Charset cs1 = Charset.forName("ASCII");
Charset cs2 = Charset.forName("utf8");
System.out.println(toHex(cs1.encode(str).array()));
System.out.println(toHex(cs2.encode(str).array()));
}
public static String toHex(byte[] outputBytes) {
StringBuilder builder = new StringBuilder();
for(int i=0; i<outputBytes.length; ++i) {
builder.append(String.format("%02x", outputBytes[i]));
}
return builder.toString();
}
}
rendimenti
61616161616161616161
6161616161616161616100
cioè utf8 codifica restituisce eccesso byte. Se prendiamo meno a-s, non avremo byte in eccesso. Se prendiamo più a-s possiamo ottenere sempre più byte in eccesso.
Perché?
Come si può aggirare questo?