riconoscimento caratteri cinesi con Tesseract OCR

Ho utilizzato Tesseract 3.0.2 OCR SDK per l'estrazione di testo immagine. Ma se uso immagini di testo cinese e passo attraverso l'OCR, Tesseract non mi fornisce i caratteri cinesi invece di ottenere caratteri numerici e inglesi. Ma ho bisogno di caratteri cinesi come mostrato nell'immagine che sto usando.riconoscimento caratteri cinesi con Tesseract OCR

Come posso ottenere questo risultato? C'è un modo per ottenere caratteri cinesi piuttosto che altri caratteri?

fonte

2013-05-16 Nishant Tyagi

È necessario scaricare i dati addestrati cinesi (sarà un file come chi_sim.traineddata) e aggiungerlo alla cartella tessdata.

Per scaricare il file https://github.com/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata

e utilizzare come questo

Tesseract* tesseract= [[Tesseract alloc] initWithDataPath:@"tessdata" language:@"chi_sim"];

se avete qualche problema è possibile scaricare il mio esperimento con tessaract (con il supporto per la lingua cinese) da https://github.com/aryansbtloe/ExperimentWithTesseract.git

Ho provato questo ... Spero che lo troverai utile.

fonte

2013-05-16 08:43:05

Grazie funziona :-) –

Alok, ho provato il tuo campione e funziona bene su circa la metà dei caratteri cinesi semplificati che ho provato. Per il resto può riconoscere un carattere composto come diversi caratteri diversi, ognuno dei quali rappresenta un componente nel carattere composto, o totalmente sbagliato. Conosci qualche metodo per migliorare l'accuratezza del riconoscimento? – CodePlumber

Il nuovo collegamento dati addestrato è https://github.com/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata –

riconoscimento caratteri cinesi con Tesseract OCR

risposta

Problemi correlati