Come sostituire i caratteri Unicode con ASCII

Ho il seguente comando per sostituire i caratteri Unicode con quelli ASCII.Come sostituire i caratteri Unicode con ASCII

sed -i 's/Ã/A/g'

Il problema è Ã non viene riconosciuto dal comando sed nel mio ambiente Unix così mi piacerebbe pensare di sostituirlo con il suo valore esadecimale. Come sarebbe la sintassi se dovessi utilizzare C3?

sto usando questo comando come un modello per gli altri personaggi che mi piacerebbe sostituire con spazi vuoti come:

sed -i 's/©// g'

fonte

2014-11-21 Sandeep Johal

intendi in questo modo? http://stackoverflow.com/questions/22450563/sed-matching-unicode-blocks-with – Leo

Quale set di caratteri utilizza il terminale? E quale codifica usa il testo di input? Ã in UTF-8 è 0xC3 0x83 e il carattere 0x83 è un codice di controllo in ISO 8859-1, quindi potrebbe essere un problema. Suppongo che tu non possa semplicemente impostare 'LANG = en_US.UTF-8' sul tuo sistema. – yellowantphil

"sed" farà il lavoro. Per favore vedi la mia risposta. – ajaaskel

È possibile utilizzare iconv:

iconv -f utf-8 -t ascii//translit

fonte

2014-11-21 00:36:57 tinySandy

Intendi GNU iconv. Non tutte le versioni di iconv supportano la traslitterazione. –

Sì, ma può provarlo – tinySandy

Grazie, ma sto usando questo come modello per creare altri comandi sed che sostituiranno determinati caratteri con spazi vuoti, ad esempio: sed -i//// g ' –

È possibile utilizzare valori esadecimali in "sed".

echo "Ã" | hexdump -C 
00000000 c3 83 0a           |...| 
00000003

Ok, quel carattere è una combinazione di due byte "c3 83". Diciamo sostituirla con singolo byte "A":

echo "Ã" |sed 's/\xc3\x83/A/g' 
A

Spiegazione: \ x indica per "sed" che un codice esadecimale segue.

fonte

2014-11-21 07:41:25 ajaaskel

Di solito scriverei quelli con <<< ma i piping danno un'idea migliore per un lettore medio che cosa sta succedendo. – ajaaskel

Cosa intendi con "scrivili con <<<"? – isomorphismes

hexdump -C <<< Ö – ajaaskel

impostazione LANG=C e quindi eseguirlo su tutta la gamma Unicode Prova:
echo "hi ☠ there ☠" | LANG=C sed "s/[\x80-\xFF]//g"

fonte

2015-11-12 15:27:22

C'è anche uconv, da ICU.

Esempi:

uconv -x "::NFD; [:Nonspacing Mark:] > ; ::NFC;": per rimuovere gli accenti
uconv -x "::Latin; ::Latin-ASCII;": per una traslitterazione latina/ascii
uconv -x "::Latin; ::Latin-ASCII; ([^\x00-\x7F]) > ;": per una traslitterazione latina/ASCII e la rimozione di punti di codice rimanenti> 0x7F
...

echo "À l'école ☠" | uconv -x "::Latin; ::Latin-ASCII; ([^\x00-\x7F]) > ;" restituisce: A l'ecole

fonte

2015-11-12 18:08:19 julp

Come sostituire i caratteri Unicode con ASCII

risposta

Problemi correlati