Sto cercando di elaborare l'immagine seguente con leptonica per estrarre il testo con tesseract.Elaborazione delle immagini per OCR con leptonica (testo a colori inverso)
Immagine originale:
Tesseract l'immagine originale cede questo:
i s l
D2J1FiiE-l191x1iitmwii9 uhiaiislz-2 Q ~37
Bottom linez
With a little time!
you can learn social media technology
using free online resources-
And if you donity
youlll be at a significant disadvantage
to
other HOn-pFOiiTS-
Non è fantastico, soprattutto il fondo superiore. Quindi, utilizzando leptionica io uso un algoritmo di rimozione dello sfondo (sfocatura, differenza, soglia, invertito) per ottenere la seguente immagine:
Ma Tesseract non fare un buon lavoro con esso:
@@r-mair [email protected] [email protected] [email protected] [email protected] [email protected] [email protected]@ll
mm Mime
VWU1 a Mitt-Jle time-
@1m [email protected]@Wn Om @@@lh1
using free onhne resources-
Andifyoudoni
9110 ate a $0 D
to other non-profrts
I
Il il problema principale, a quanto pare, è che ora tutto il testo è delineato anziché solido. Come posso regolare il mio algoritmo o cosa posso aggiungere per rendere il testo solido?
È grandioso. Prima di accettare la risposta, non ti capita di conoscere un'implementazione di questo algoritmo, vero? – jasonlfunk
No, sfortunatamente non so se esiste un'implementazione. – sastanin
Ho realizzato un'implementazione usando python e opencv. Grazie! https://github.com/jasonlfunk/ocr-text-extraction – jasonlfunk