La seconda domanda è in qualche modo risposta qui: http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3#Generate_Training_Images Non è necessario allenarsi con più dimensioni. 10 punti farà. (Un'eccezione a questo è un testo molto piccolo.Se si desidera riconoscere il testo con un'altezza x inferiore a circa 15 pixel, è necessario addestrarlo in modo specifico o ridimensionare le immagini prima di provare a riconoscerle.)
Domande 1 e 3: per esperienza, ho usato con successo immagini a 300 dpi/caratteri non anti-alias. Più specificamente, ho usato i seguenti parametri convertire un pdf formazione, che ha generato un'immagine soddisfacente:
convert -density 300 -depth 8 [input].pdf -background white -flatten +matte -compress none -monochrome [output].tif
Ma poi tentato di aggiungere un carattere tratteggiata per Tesseract e rilevato solo caratteri correttamente quando ho usato un 150 immagine dpi. Quindi, non penso che ci sia una soluzione generale, dipende dal tipo di carattere che stai cercando di aggiungere.
fonte
2013-05-09 22:24:52
carattere TRY 12 pts e 300 dpi –