2010-04-01 16 views
23

Dalla tua esperienza, qual è la libreria/software di riconoscimento ottico dei caratteri (OCR) open-source più accurato per leggere il testo giapponese?OCR open-source più preciso per il giapponese?

Ho appena provato nhocr, il suo tasso di errore è superiore al 2% anche su un documento ad alta definizione estremamente pulito.

+1

Per quello che vale, il 2% non è terribile per OCR. Facciamo fatica a ottenerlo con, uhm, Romaji. –

+0

Il 2% è per caratteri ultra-puliti in caratteri grandi. Per i libri scansionati è molto peggio, per non parlare dei moduli scritti a mano. –

risposta

4

In base alla mancanza di risposte, sembra che nhocr sia l'OCR open-source più accurato per il giapponese.

2

Non ho provato da solo, ma forse dovresti dare un'occhiata a tesseract.

+0

Il giapponese non è disponibile, neanche come download separato: http://code.google.com/p/tesseract-ocr/downloads Il readme accenna brevemente che il giapponese è stato rimosso ed è disponibile da qualche parte, ma in realtà non si trova da nessuna parte essere trovato :-(http://code.google.com/p/tesseract-ocr/wiki/ReadMe Sulla mailing list, un utente ha riportato un buon allenamento con Tesseract su 60 caratteri giapponesi, ma è chiaramente sperimentale In conclusione, potrebbe essere possibile, ma in pratica nessuno usa Tesseract per il giapponese. –

+0

Non conosco il giapponese, ma il fatto che avessero un gruppo giapponese sembrava interessante: http://groups.google.co.jp/group/ tesseract-ocr/(ma guardandolo potrebbe anche essere una versione giapponese di quella internazionale, scusa se ho sprecato il tuo tempo) – baol

+1

@Nicolas Ho aperto il problema http://code.google.com/p/tesseract -o cr/issues/detail? id = 291 sui file di dati CJK mancanti – SamB

0

Ho avuto un po 'di esperienza R & D con la soluzione ABBYY - FineReader Engine. Era la versione 8.1 al momento, e non sono aggiornato con le loro ultime revisioni. Ma all'epoca - era semplicemente la migliore che potessi trovare per il nostro prodotto per scanner portatili. Lo consiglio vivamente.

BTW, è possibile ottenere una versione gratuita del pacchetto ABBYY OCR per gli utenti finali quando si acquista una stampante XEROX PE220, con cui viene fornita. Quella stampante era sulla mia scrivania per diversi anni. Devono esserci altre stampanti che vengono fornite al suo interno. Xerox stava scommettendo su thei OCR come il migliore.

+0

FineReader NON è open source. E la versione che stavi utilizzando NON supportava il giapponese: http://www.abbyy.com/Default.aspx?DN=b6d671c1-6da6-4bec-8c06-0ad362f6a7e9 –

+3

Spiacente, non ho visto la richiesta open source. Non è open-source. La versione che stavo usando aveva il supporto CJK (cinese, giapponese e coreano), che è un componente aggiuntivo del motore. Lo stavamo usando per dimostrare agli acquirenti del sud-est la nostra tecnologia. VEDERE AT: http://www.ocr.gr/downloads/Engine%208.1%20What's%20New.pdf (copiare l'URL perché SO lo interrompe) –

+0

@Etamar ABBYY OCR è interessante. Consentono l'integrazione con un dizionario personalizzato, personalizzando l'analisi di bigrams, ecc.?Abbiamo bisogno di utilizzare queste tecniche per migliorare l'accuratezza dell'OCR. –

-1

Si prega di provare WeOCR. Sono disponibili versione server e versione download.

+0

Se capisco bene, WeOCR è solo un front-end Web per altri motori OCR. In particolare, usa nhocr per il giapponese. Quindi immagino che non sia più preciso di nhocr, giusto? –

+0

Vedi http://weocr.ocrgrid.org/#todo Uno degli elementi di TODO è "Sviluppa un OCR per il giapponese" e si collega a nhocr –

+1

Yah. È corretto. Solo un paio di mesi fa, ho provato la versione del server online. Ma era tutt'altro che preciso. Cellulare giapponese specialmente il cellulare Sharp ha una capacità OCR piuttosto eccellente. Ma non ho trovato altri software OCR gratuiti. Ovviamente, Sharp non vende il proprio software OCR a questo punto. – kmugitani