Uso di grep per filtrare le parole da un file stopword

Desidero utilizzare grep insieme a un file stopwords per filtrare le parole inglesi comuni da un altro file. Il file "somefile" contiene una parola per riga.Uso di grep per filtrare le parole da un file stopword

cat somefile | grep -v -f stopwords

Il problema di questo approccio è: Verifica se una parola in stopword si verifica in somefile, ma voglio il contrario, vale a dire controllare se una parola in somefile si verifica in stopword.

Come fare questo?

Esempio

somefile contiene i seguenti:

hello 
o 
orange

stopwords contiene i seguenti:

voglio filtrare solo la parola "o" da somefile, non ciao e arancione.

fonte

2011-09-07 Pimin Konstantin Kefaloukos

Ci ho pensato un po ', e ho trovato una soluzione ...

utilizzare l'interruttore -w di grep per abbinare parole intere:

grep -v -w -f stopwords somefile

fonte

2011-09-07 11:16:05

o 'grep -v -w -f stopword somefile' evitando il comando' cat' – Matthias

Ho modificato la risposta in base al suggerimento di pulizia @Matthias –

Supponendo di avere stopword file/tmp/parole:

in 
the

è possibile creare da esso programma sed da:

sed 's|^|s/\\<|; s|$|\\>/[CENSORED]/g;|' /tmp/words > /tmp/words.sed

questo modo otterrete /tmp/words.sed:

s/\<in\>/[CENSORED]/g; 
s/\<the\>/[CENSORED]/g;

e quindi utilizzarlo per censurare qualsiasi file di testo:

sed -e -f /tmp/words.sed /input/file/to/filter.txt > /censored/output.txt

Il -e è necessario per sed per capire esteso regexp necessario per il riconoscimento. Ovviamente è possibile modificare [censored] in qualsiasi altra stringa o stringa vuota, se lo si desidera.

Questa soluzione gestirà molte parole in linea e un file word per linea.

fonte

2011-09-07 11:23:48

Uso di grep per filtrare le parole da un file stopword

risposta

Problemi correlati