2015-05-14 9 views
7

Ho la seguente immagine che mi piacerebbe per preparare un OCR con Tesseract: enter image description herePulizia un'immagine per l'OCR con ImageMagick e 'textcleaner'

L'obiettivo è quello di ripulire l'immagine e rimuovere tutti del rumore Sto usando lo script textcleaner che utilizza ImageMagick con i seguenti parametri:

./textcleaner -g -e normalize -f 30 -o 12 -s 2 original.jpg output.jpg 

L'uscita non è ancora così pulito: enter image description here

Ho provato tutti i tipi di variazioni per i parametri ma con senza fortuna. Qualcuno ha un'idea?

risposta

5

Se si converte al JPEG, voi sempre avere il tipo di manufatti che state vedendo.

Questa è una tipica "caratteristica" della compressione JPEG. I JPEG non sono mai buoni per le immagini che mostrano linee nitide, contrasti con colori uniformi tra aree diverse dell'immagine, usando solo pochissimi colori. Questo è vero per i testi in bianco e nero. JPEG è solo "buono" per le foto tipiche, con un sacco di colori e sfumature diverse ...

Il tuo problema è molto probabile che tutto si risolvono se si utilizza PNG come formato di output. La seguente immagine lo dimostra. Ho generato con gli stessi parametri vostro comando ultimo esempio utilizzati, ma con PNG come formato di output:

textcleaner -g -e normalize -f 30 -o 12 -s 2 \ 
    http://i.stack.imgur.com/ficx7.jpg  \ 
    out.png 

PNG instead of JPEG output

Ecco uno zoom simile in uscita:

Zoomed PNG

Probabilmente è possibile migliorare ulteriormente l'output se si gioca con i parametri dello script textcleaner. Ma questo è il tuo lavoro ... :-)

+1

Grazie mille, solo convertendo il jpg in png fatto una grande differenza per me, grazie mille, so che il mio script tesseract è di gran lunga migliore! –