2013-05-16 24 views
11

Ho utilizzato Tesseract 3.0.2 OCR SDK per l'estrazione di testo immagine. Ma se uso immagini di testo cinese e passo attraverso l'OCR, Tesseract non mi fornisce i caratteri cinesi invece di ottenere caratteri numerici e inglesi. Ma ho bisogno di caratteri cinesi come mostrato nell'immagine che sto usando.riconoscimento caratteri cinesi con Tesseract OCR

Come posso ottenere questo risultato? C'è un modo per ottenere caratteri cinesi piuttosto che altri caratteri?

risposta

11

È necessario scaricare i dati addestrati cinesi (sarà un file come chi_sim.traineddata) e aggiungerlo alla cartella tessdata.

Per scaricare il file https://github.com/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata

e utilizzare come questo

Tesseract* tesseract= [[Tesseract alloc] initWithDataPath:@"tessdata" language:@"chi_sim"]; 

se avete qualche problema è possibile scaricare il mio esperimento con tessaract (con il supporto per la lingua cinese) da https://github.com/aryansbtloe/ExperimentWithTesseract.git

Ho provato questo ... Spero che lo troverai utile.

+1

Grazie funziona :-) –

+0

Alok, ho provato il tuo campione e funziona bene su circa la metà dei caratteri cinesi semplificati che ho provato. Per il resto può riconoscere un carattere composto come diversi caratteri diversi, ognuno dei quali rappresenta un componente nel carattere composto, o totalmente sbagliato. Conosci qualche metodo per migliorare l'accuratezza del riconoscimento? – CodePlumber

+1

Il nuovo collegamento dati addestrato è https://github.com/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata –

Problemi correlati