Qualcuno ha tentato di estrarre testo da un PDF utilizzando una libreria OCR e Java? Cosa hai trovato per essere la libreria più affidabile per l'estrazione del testo. La maggior parte degli approcci che ho visto (tesseract, GOCR) sono librerie C che richiedono la scrittura di un codice JNI.Approccio di estrazione del testo in PDF tramite l'OCR
Ho familiarità con pdfbox, che ora è un progetto di incubatore Apache alla versione 0.8.x, ma l'estrazione del testo non è sempre accurata. Sto cercando un approccio alternativo che sia alquanto più affidabile.
Non ho ancora provato Asprise JavaPDF, nel tentativo di provarlo, ma volevo sapere di più sull'approccio OCR (se è possibile).
Qualsiasi aiuto sarebbe apprezzato.
Stai utilizzando un PDF strutturato? Se sei hai la possibilità in JAVA di afferrare il testo dai metadati PDF. – northpole
No, non tutti i PDF sono strutturati. – Jon