Cambia dai riferimenti ai caratteri HTML a utf-8 in uno script bash, ad es. ā diventa

Come procederesti a tradurre un documento che contiene i seguenti riferimenti di carattere ai loro caratteri reali leggibili in uno script bash?Cambia dai riferimenti ai caratteri HTML a utf-8 in uno script bash, ad es. ā diventa

&#257; &#225; &#462; &#224; &#275; &#233; &#283; &#232; &#299; &#237; &#464; &#236; &#470; &#472; &#474; &#476; &#252; &#470; &#472; &#474; &#476; &#252;

Questi cambiamento al fine di Â Â ǎ à e e e e i i ǐ ì ǖ ǘ ǚ ǜ ü ǖ ǘ ǚ ǜ ü

fonte

2009-02-23 Anonymous

StackOverflow permette entità HTML. Potrebbe voler modificare quello. –

La mia prima risposta è usare sed, se sono solo quelle entità. La sostituzione diretta dovrebbe essere possibile in questo modo. Se vuoi che funzioni per entità arbitrarie, però, allora non riesco a pensare a qualcosa di estemporaneo (non sono una persona importante, purtroppo). –

Se si ha accesso a Perl allora è relativamente semplice:

perl -ne 'binmode STDOUT,":utf8";s/&#([0-9]*);/pack("U",$1)/eg;print' \ 
    document.html

Esempio:

#!/bin/bash 
html2utf8() { 
    perl -ne 'binmode STDOUT, ":utf8"; s/&#([0-9]*);/pack("U",$1)/eg; print' 
} 
echo 'testing 1 &#257; 2 &#300; 3 &#275;' | html2utf8

Produce:

testing 1 ā 2 Ĭ 3 ē

fonte

2009-02-23 04:53:02 vladr

Sì, ho accesso a perl, quindi è probabilmente il modo più facile e più accurato per farlo. Sinceramente, l'intero progetto sarebbe comunque meglio realizzato in perla –

Se siete alla ricerca di un colpo unico modo di fare questo, sembra che ci sono alcune soluzioni in questa discussione: http://forums.gentoo.org/viewtopic-t-820377-view-previous.html?sid=b35246f20410ba95ee048970d01ac6b3

fonte

2010-07-18 03:16:59 Menachem

Cambia dai riferimenti ai caratteri HTML a utf-8 in uno script bash, ad es. ā diventa

risposta

Problemi correlati