2012-11-16 22 views
6

Sto scrivendo un generatore per immagini di allenamento per Tesseract OCR.Creazione di un'immagine di allenamento per Tesseract OCR

Quando si genera un'immagine di formazione per un nuovo tipo di carattere per Tesseract OCR, quali sono i valori migliori per:

  1. Il DPI
  2. La dimensione del carattere in punti
  3. Il font deve essere anti-aliasing o no
  4. Qualora i riquadri di delimitazione adattarsi perfettamente: enter image description here, o no: enter image description here
+0

carattere TRY 12 pts e 300 dpi –

risposta

1

Ho trovato la risposta alla quarta domanda: "I riquadri di delimitazione devono adattarsi perfettamente".

Sembra che montare i rettangoli il più possibile dà risultati migliori.

Per gli altri 12 punti e 300 dpi sarà sufficiente, come suggerito da @ Yaroslav. Penso che l'anti-aliasing sia meglio disattivato.

2

La seconda domanda è in qualche modo risposta qui: http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3#Generate_Training_Images Non è necessario allenarsi con più dimensioni. 10 punti farà. (Un'eccezione a questo è un testo molto piccolo.Se si desidera riconoscere il testo con un'altezza x inferiore a circa 15 pixel, è necessario addestrarlo in modo specifico o ridimensionare le immagini prima di provare a riconoscerle.)

Domande 1 e 3: per esperienza, ho usato con successo immagini a 300 dpi/caratteri non anti-alias. Più specificamente, ho usato i seguenti parametri convertire un pdf formazione, che ha generato un'immagine soddisfacente:

convert -density 300 -depth 8 [input].pdf -background white -flatten +matte -compress none -monochrome [output].tif 

Ma poi tentato di aggiungere un carattere tratteggiata per Tesseract e rilevato solo caratteri correttamente quando ho usato un 150 immagine dpi. Quindi, non penso che ci sia una soluzione generale, dipende dal tipo di carattere che stai cercando di aggiungere.

-1

buon strumento per la formazione Tesseract http://vietocr.sourceforge.net/training.html

E 'buono strumento perché avere numerosi vantaggi

  1. riquadro di delimitazione sulla lettera può essere modificabile da GUI interfaccia basata
  2. creare automaticamente tutti richiedono file di
  3. combina automaticamente tutti i file come freq-dawg, word-dawg, user-words (può essere un file vuoto), Inttemp, Normproto, Pffmtable, Unicharset, DangAmbigs (può essere un file vuoto), trasformabile in singl e file .
  4. Nuovi dati di allenamento possono essere utilizzati con file di Tesseract esistente end.traineddata
Problemi correlati