devo estrarre il testo da fatture e file pdfregola per le bollette e fatture verious
I layout file possono ottenere complessa, anche se la sua gran parte riempito con tavoli.
Ho letto alcune dozzine di articoli già sul formato pdf, quanto è facile per il nostro cervello coglierlo e quanto sia difficile per una macchina capire la sua struttura.
Inoltre, ha scaricato alcuni strumenti come il pdfminer di Python e alcuni strumenti java, alcuni hanno anche un'estrazione di layout basata su regole, come LA-PDBtext queste sono tutte librerie grandiose, lasciando il passo finale.
Adobe ha anche un servizio online chiamato exportPdf ma non può essere personalizzato
Linea di fondo, ho capito che per estrarre il testo da file pdf strutturati e convertirlo in XML, ad esempio, ci dovrebbe essere un po ' livello di lavoro manuale.
Ho trovato anche From Data Extractor, uno strumento non libero con la possibilità di impostare regole di estrazione che dichiarano di eseguire il lavoro, anche se è difficile trovare un manuale corretto e viene eseguito solo su Windows.
Ho pensato che potrei anche provare a convertire quei file in immagini e provare tesseract-ocr ma ho deciso di chiedere un consiglio qui prima di dedicare più tempo a questo.
Sarò molto grato se qualcuno con tale esperienza mi dia un suggerimento.
A meno che questi PDF non siano conformi al formato PDF/A-1a, è necessario molto lavoro: in pratica dovrai eseguire l'OCR. PDF non è il formato giusto per questo; prova ad ottenere fatture e fatture come XML strutturato correttamente o come EDIFACT. –
Hey so che questo è un vecchio post, ma prova Tabula https://github.com/jazzido/tabula-extractor – blaze