Ho un sacco di file in arabo, inglese, russo che sono codificati in utf-8. Cercando di elaborare questi file utilizzando uno script in Perl, ottengo questo errore:Come rimuovere caratteri non UTF-8 dal file di testo
Malformed UTF-8 character (fatal)
Controllare manualmente il contenuto di questi file, ho trovato alcuni caratteri strani in loro. Ora sto cercando un modo per rimuovere automaticamente questi caratteri dai file.
C'è comunque da fare?
Forse è lo stesso di questo: http://stackoverflow.com/questions/7656283/malformed-utf-8-character-fatal-error-while-parsing-xml-using-xmllibxml –
Si prega di fare riferimento a questo link: http://unix.stackexchange.com/questions/6516/filtering-invalid-utf8 – askmish
Cosa sono i caratteri non UTF-8? Tutti i personaggi in una stringa UTF-8 ben formata sono caratteri UTF-8 (in realtà Unicode)! Alcuni di essi sono codificati in UTF-8 in più byte consecutivi .... –