Per quanto ne so, Tesseract 3.x viene fornito con 6 caratteri inglesi (correggimi se sbaglio). Devo addestrare Tesseract per altri 5 tipi di caratteri. Ho bisogno solo di lettere maiuscole e cifre (senza caratteri speciali o simboli)."Aggiungere" nuovi caratteri a Tesseract eng.traineddata
ho seguito vari processi per esempio: Adding New Fonts to Tesseract 3 OCR Engine
e strumenti utilizzati anche per automatizzare il processo come Serak Tesseract Trainer for Tesseract 3.02
Per generare file scatola ho usato QT Box Editor
Dopo usando strumenti sopra ottengo eng.traineddata
file. Tutti i tutorial mi dicono di aggiungere questo file alla cartella Tesseract-OCR\tessdata
, ma così facendo sostituirà il file originale eng.traineddata
. Dopo averlo fatto, perderò i font predefiniti forniti con Tesseract 3.x?
Come posso aggiungere nuovi caratteri? Non è ancora chiaro per me. Spero che qualcuno possa aiutarmi qui. Grazie.
dove posso specificare l'opzione della lingua -l eng + eng1? – manu
Questo potrebbe sembrare troppo pigro ma esiste un modo per fornire un file di font come input (ad un sito Web, ad esempio) e un 'tessdata' addestrato viene fornito come output? – tipycalFlow
@tipycalFlow [jTessBoxEditor] (http://vietocr.sourceforge.net/training.html) ha un generatore TIFF/Box. È possibile fornire un file di font e ottenere una casella con i valori corretti. Con [Serak Tesseract Trainer] (http://code.google.com/p/serak-tesseract-trainer/) puoi fare il resto. –