Sto provando a utilizzare pyPdf per estrarre e stampare pagine da un PDF multipagina. Il problema è che il testo non viene estratto da alcune pagine. Ho messo un file di esempio qui:pyPdf impossibile estrarre il testo da alcune pagine nel mio PDF
http://www.4shared.com/document/kmJF67E4/forms.html
Se si esegue il seguente, le prime 81 pagine restituiscono alcun testo, mentre la finale 11 estratto correttamente. Qualcuno può aiutare?
from pyPdf import PdfFileReader
input = PdfFileReader(file("forms.pdf", "rb"))
for page in input1.pages:
print page.extractText()
Grazie per il vostro aiuto. Ho provato pdftotext e l'ho passato in quanto risolve solo parzialmente il problema. Ho bisogno di dividere il pdf in file separati sulla base di UID che si trovano su ogni pagina. Comunque le ultime 10 pagine, che pyPdf può estrarre, non hanno etichette testuali, quindi usare pdftotext, mentre mi dà tutto il testo, non mi dà modo di generare un elenco di pagine per un dato UID . – DrJAKing
Questo non fa un brutto lavoro di output del testo del PDF, ma non preserva la formattazione della tabella. – s2t2