Chip, Dirkland, DrobæSphere Inc, cdirkland @ hotmail.com, Stati Uniti d'AmericaSkip/rimuovere caratteri non-ascii con sed
Ho cercato di usare sed per modificare gli indirizzi di posta elettronica in un file .csv ma la linea sopra di me continua a inciampare, utilizzando i comandi come:
sed -i 's/[\d128-\d255]//' FILENAME
from this stackoverflow question
non sembra funzionare come ottengo un errore 'non valida carattere collazione'.
Idealmente non voglio cambiare quel carattere combinato di AE, preferirei sed semplicemente saltarci sopra mentre non sto cercando di manipolare quel testo ma piuttosto gli indirizzi email. Finché questo AE è presente ma causa la mancata sostituzione di sed dopo una riga, cancella il carattere e elabora l'intero file.
Qualche idea?
+1 per il 'l0'. Esiste anche un altro script 'sedsed.py', disponibile [qui] (http://aurelio.net/sedsed/). Utile per ispezionare gli spazi 'pattern' e' hold'. Potrebbe non essere d'aiuto in questo caso, ma un utile strumento di debug comunque. :) –
che il comando sed -n 'l0' è interessante, ciò che viene stampato per società è: Drob \ 357 \ 277 \ 275Sphere Inc – xref
e non riesco ancora a ottenere gli esempi sopra per lavorare con esso, forse il personaggio (che mostra come un AE in Windows LibreOffice ma da nessun'altra parte) è in realtà un personaggio speciale che dice che non può essere rappresentato in unicode? http://www.fileformat.info/info/unicode/char/fffd/index.htm – xref