Estrai testo per pagina con Python pdfMiner?

Ho sperimentato con pyPdf e pdfMiner per estrarre il testo da file PDF. Ho alcuni PDF ostili che solo pdfMiner è in grado di estrarre con successo. Sto usando il codice here per estrarre il testo per l'intero file. Tuttavia, mi piacerebbe davvero estrarre il testo su una base per pagina come la funzionalità getPage(i).extractText() in pyPdf. Qualcuno sa come estrarre testo per pagina usando pdfMiner?Estrai testo per pagina con Python pdfMiner?

fonte

2012-09-26 ezbentley

for pageNumber, page in enumerate(PDFDocument.get_pages()): 
    if pageNumber == 42: 
     #do something with the page

C'è un buon articolo here.

fonte

2012-09-26 18:19:34 John

Qualcuno potrebbe elaborare questo? Sto avendo grossi problemi a capire come pdfminer perché non c'è alcuna documentazione. – Jazcash

per quale versione di 'pdfminer' funziona questo codice? –

Questo sembrerebbe interrotto con l'attuale * pdfminer * (il tempo di scrittura della scrittura 20140328). –

Estrai testo per pagina con Python pdfMiner?

risposta

Problemi correlati