2011-08-18 8 views

risposta

11

È una codifica di un punto di codice che richiede più unità di codice del necessario.

Ad esempio, U + 0020 è rappresentato in UTF-8 dal singolo byte 0x20. Se decodifichi i due byte 0xc0 0xa0 nel modo normale, tornerai comunque a U + 0020, ma questa è una rappresentazione non valida.

Il Unicode Corrigendum #1 ha ulteriori informazioni, in particolare attorno alla tabella 3.1B.

2

UTF-8 consente teoricamente diverse rappresentazioni di caratteri che ne hanno anche uno più corto. Ad esempio, è possibile codificare un carattere ASCII in due byte impostando gli MSB a zero. La specifica UTF-8 lo proibisce esplicitamente.

+0

Terribile gioco di parole. Giù votato. – Computer

+0

@Computer: o.O quale gioco mi è mancato? – Joey

+0

Hai detto di vietare! – Computer

Problemi correlati