2012-09-26 21 views
5

Ho sperimentato con pyPdf e pdfMiner per estrarre il testo da file PDF. Ho alcuni PDF ostili che solo pdfMiner è in grado di estrarre con successo. Sto usando il codice here per estrarre il testo per l'intero file. Tuttavia, mi piacerebbe davvero estrarre il testo su una base per pagina come la funzionalità getPage(i).extractText() in pyPdf. Qualcuno sa come estrarre testo per pagina usando pdfMiner?Estrai testo per pagina con Python pdfMiner?

risposta

6
for pageNumber, page in enumerate(PDFDocument.get_pages()): 
    if pageNumber == 42: 
     #do something with the page 

C'è un buon articolo here.

+0

Qualcuno potrebbe elaborare questo? Sto avendo grossi problemi a capire come pdfminer perché non c'è alcuna documentazione. – Jazcash

+0

per quale versione di 'pdfminer' funziona questo codice? –

+0

Questo sembrerebbe interrotto con l'attuale * pdfminer * (il tempo di scrittura della scrittura 20140328). –