2012-07-26 6 views
9

Sto cercando di elaborare l'immagine seguente con leptonica per estrarre il testo con tesseract.Elaborazione delle immagini per OCR con leptonica (testo a colori inverso)

Immagine originale: original image

Tesseract l'immagine originale cede questo:

i s l 
D2J1FiiE-l191x1iitmwii9 uhiaiislz-2 Q ~37 
Bottom linez 
With a little time! 
you can learn social media technology 
using free online resources- 
And if you donity 
youlll be at a significant disadvantage 
to 
other HOn-pFOiiTS- 

Non è fantastico, soprattutto il fondo superiore. Quindi, utilizzando leptionica io uso un algoritmo di rimozione dello sfondo (sfocatura, differenza, soglia, invertito) per ottenere la seguente immagine: processed image

Ma Tesseract non fare un buon lavoro con esso:

@@r-mair [email protected] [email protected] [email protected] [email protected] [email protected] [email protected]@ll 
mm Mime 
VWU1 a Mitt-Jle time- 
@1m [email protected]@Wn Om @@@lh1 
using free onhne resources- 
Andifyoudoni 
9110 ate a $0 D 
to other non-profrts 
I 

Il il problema principale, a quanto pare, è che ora tutto il testo è delineato anziché solido. Come posso regolare il mio algoritmo o cosa posso aggiungere per rendere il testo solido?

risposta

9

Sembra che questo documento propone un metodo di binarizzazione che risolve il problema:

T Kasar, J Kumar e A G Ramakrishnan. Font and Background Color Independent Text Binarization. (2007)

Kasar etal method performance

+0

È grandioso. Prima di accettare la risposta, non ti capita di conoscere un'implementazione di questo algoritmo, vero? – jasonlfunk

+0

No, sfortunatamente non so se esiste un'implementazione. – sastanin

+5

Ho realizzato un'implementazione usando python e opencv. Grazie! https://github.com/jasonlfunk/ocr-text-extraction – jasonlfunk

Problemi correlati