Per una soluzione generica, lo Text::Unidecode traslitterazione praticamente tutto ciò che viene generato in puro US-ASCII.
Quindi nel tuo caso questo dovrebbe funzionare:
perl -C -MText::Unidecode -n -i -e'print unidecode($_)' unicode_text.txt
Il -C è lì per assicurarsi che l'ingresso viene letto come utf8
Converte questo:
l'été est arrivé à peine après aôut
¿España es un paìs muy lindo?
some special chars: » « ® ¼ ¶ – – — Ṉ
Some greek letters: β ÷ Θ ¬ the α and ω (or is it Ω?)
hiragana? みせる です
Здравствуйте
السلام عليكم
in questo :
l'ete est arrive a peine apres aout
?Espana es un pais muy lindo?
some special chars: >> << (r) 1/4 P - - -- N
Some greek letters: b/Th ! the a and o (or is it O?)
hiragana? miseru desu
Zdravstvuitie
lslm `lykm
L'ultimo mostra i limiti del modulo, che non può dedurre le vocali e ottenere as-salaamu 'alaykum dall'originale arabo. E 'ancora piuttosto buona Penso
Sì, sarebbe interessante sapere perché -p non funziona. – stephenmm