Ho un po 'di codice da leggere da un file pdf. C'è un modo per leggere riga per riga dal file pdf (non dalle pagine) usando Pypdf, Python 2.6, su Windows?Come leggere riga per riga nel file pdf usando PyPdf?
Ecco il codice per la lettura delle pagine pdf:
import pyPdf
def getPDFContent(path):
content = ""
num_pages = 10
p = file(path, "rb")
pdf = pyPdf.PdfFileReader(p)
for i in range(0, num_pages):
content += pdf.getPage(i).extractText() + "\n"
content = " ".join(content.replace(u"\xa0", " ").strip().split())
return content
Aggiornamento:
Il codice di chiamata è questo:
f= open('test.txt','w')
pdfl = getPDFContent("test.pdf").encode("ascii", "ignore")
f.write(pdfl)
f.close()
sì, ma dove ho potuto, ma questo nel mio codice, perché non posso farlo funzionare ??? –
stesso problema, questo non è lavoro mi dà l'intera pagina, voglio solo linea per linea :) –
questo codice non funzionava .... pdf.getPage (i) .extractText() ottiene dati vuoti –