2012-11-29 18 views
6

Ho implementato uno strumento OCR Android utilizzando solo tesseract per le cifre dell'ocra. Finora, sta dando un'accuratezza piuttosto elevata con i normali caratteri digitali. Tuttavia, la precisione è terribile quando si tratta di cifre a 7 segmenti (quelle trovate sugli LCD).Android Tesseract OCR 7 cifre del segmento

Ho provato a ritagliare la mia immagine, la whitelist con 0 a 9 e anche qualche elaborazione delle immagini senza successo. Qualche idea là fuori su come aumentare la precisione? O forse alcuni consigli sull'addestramento delle specifiche cifre a 7 segmenti per tesseract mi aiuteranno sicuramente molto.

Grazie in anticipo.

+0

Non penso che si possano ottenere buoni risultati senza riqualificazione. Sarebbe bello se ci fosse un file Traineddata pubblicamente disponibile per cifre a 7 segmenti, ma non sono riuscito a trovarne uno quando ho guardato. – rmtheis

+0

Grazie per la risposta. Il tuo blog mi ha davvero aiutato molto nella mia implementazione. Quindi, molte grazie a te. Sto pianificando di addestrarlo e sto cercando in bbtesseract per il processo di boxe. Apprezzerò molto se qualcuno può condividere alcuni suggerimenti per il processo di formazione, perché quello ufficiale è un po 'di confusione per me. – laurie7

+0

È possibile utilizzare [jTessBoxEditor] (http://vietocr.sourceforge.net/training.html) per modificare o generare file TIFF/box da utilizzare durante la formazione. C'è anche uno script di PowerShell 'train.ps1' che aiuta ad automatizzare il resto della formazione. – nguyenq

risposta

2

Potete trovare traineddata per 7 segmenti a:

https://github.com/arturaugusto/display_ocr/tree/master/letsgodigital

C'è anche un codice python di esempio allo stesso repository.

+0

Potresti dirmi come hai allenato il tesseractor solo per le cifre? – malaguna

+0

Ho generato alcune immagini usando un font chiamato "lascia andare digitale", aggiunto un po 'di rumore usando gimp, usato [jTessBoxEditor] (http://vietocr.sourceforge.net/training.html) per generare i dati della scatola e usato [questo] (https://github.com/this-is-ari/python-tesseract-3.02-training) strumento per la formazione. Leggi [FAQ tesseractocr] (https://github.com/tesseract-ocr/tesseract/wiki/FAQ) per ulteriori dettagli. Ho anche condiviso le [fonti di formazione] (https://github.com/arturaugusto/display_ocr/tree/master/training_source) – art

Problemi correlati