Rimuovere le righe che contengono non in lingua inglese (ASCII) caratteri da un file

Ho un file di testo con caratteri di diverse lingue come (cinese, latino ecc)Rimuovere le righe che contengono non in lingua inglese (ASCII) caratteri da un file

voglio rimuovere tutte le righe che contengono questi non-Inglese personaggi. Voglio includere tutti i caratteri inglesi (a-b), i numeri (0-9) e tutti i segni di punteggiatura.

Come posso farlo utilizzando strumenti unix come awk o sed.

fonte

2012-07-20 Sudar

Perl supporta una classe [:ascii:] carattere.

perl -nle 'print if m{^[[:ascii:]]+$}' inputfile

fonte

2012-07-20 11:10:31

Grazie. Questo ha funzionato perfettamente. – Sudar

È possibile utilizzare egrep -v per restituire solo le linee non che corrispondono al modello e usare qualcosa come [^ a-zA-Z0-9.,;:-'"?!] come modello (includere più di punteggiatura, se necessario).

Hm, ripensandoci, una doppia negazione (-v e la classe di caratteri invertita) non è probabilmente quella buona. Un altro modo potrebbe essere ^[ a-zA-Z0-9.,;:-'"?!]*$.

È anche possibile filtrare per ASCII:

egrep -v "[^ -~]" foo.txt

fonte

2012-07-20 10:44:53 Joey

ho bisogno di tutto la punteggiatura. Quindi è possibile filtrare tutti i caratteri non ascii, invece di specificare l'elenco dei caratteri consentiti? – Sudar

È forse tangenziale al punto principale, ma l'intervallo [a-z] include caratteri non ascii in alcune impostazioni internazionali. Ad esempio, sul mio sistema, 'echo é | grep [a-z] 'trova l'é. – Anachrome

È possibile utilizzare Awk, a patto di forzare l'uso del locale C:

LC_CTYPE=C awk '! /[^[:alnum:][:space:][:punct:]]/' my_file

La variabile di ambiente LC_TYPE=C (o LC_ALL=C) forzare l'uso del locale C per la classificazione dei caratteri. Cambia il significato delle classi di caratteri ([:alnum:], [:space:], ecc.) Per far corrispondere solo caratteri ASCII.

Il /[^[:alnum:][:space:][:punct:]]/ regex le righe di corrispondenza con qualsiasi carattere non ASCII. Lo ! prima della regex inverte la condizione. Quindi solo le righe senza caratteri non ASCII corrisponderanno. Quindi, poiché non viene fornita alcuna azione, l'azione predefinita viene utilizzata per le linee corrispondenti (print).

EDIT: Questo può essere fatto anche con grep:

LC_CTYPE=C grep -v '[^[:alnum:][:space:][:punct:]]' my_file

fonte

2012-07-20 14:14:02

Con GNU grep, che supporta espressioni regolari Perl compatibili, è possibile utilizzare:

grep -P '^[[:ascii:]]+$' file

fonte

2017-09-08 07:16:37 hek2mgl

Rimuovere le righe che contengono non in lingua inglese (ASCII) caratteri da un file

risposta

Problemi correlati