Sto cercando una libreria PDF che mi consenta di estrarre il testo da un documento PDF. Ho esaminato PyPDF e questo può estrarre molto bene il testo da un documento PDF. Il problema è che se ci sono tabelle nel documento, il testo nelle tabelle viene estratto in linea con il resto del testo del documento. Questo può essere problematico perché produce sezioni di testo che non sono utili e sembrano confuse (ad esempio, un sacco di numeri purè insieme).Analisi PDF avanzata con Python (estrazione di testo senza tabelle, ecc.): Qual è la migliore libreria?
Sto cercando qualcosa che sia un po 'più avanzato. Vorrei estrarre il testo da un documento PDF, escluso, qualsiasi tabella e formattazione speciale. C'è una libreria là fuori che fa questo? O sono obbligato a fare un po 'di post-elaborazione sul testo di output per sbarazzarmi di queste sezioni?
PDFMiner sembra interessante. Sono in grado di utilizzare l'output XML da esso, quindi analizzarlo per ignorare ciò che non desidero. Ciò richiede ancora una sostanziale post-elaborazione, ma per ora è probabilmente la soluzione migliore. Grazie. –
@Etienne, può essere usato se il PDF ha anche altri caratteri di lingua? –
Dovrebbe funzionare con altri caratteri della lingua. Menzione dei documenti: supporto per le lingue CJK e gli script di scrittura verticale. Il modo migliore per essere sicuro, testarlo! – Etienne