È necessario installare il modulo PyPDF2 per essere in grado di lavorare con i PDF in Python 3.4. PyPDF2 non può estrarre immagini, grafici o altri media ma può estrarre testo e restituirlo come una stringa Python. Per installarlo esegui pip install PyPDF2
dalla riga di comando. Questo nome del modulo fa distinzione tra maiuscole e minuscole quindi assicurati di digitare "y" in minuscolo e tutti gli altri caratteri in maiuscolo.
>>> import PyPDF2
>>> pdfFileObj = open('my_file.pdf','rb') #'rb' for read binary mode
>>> pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
>>> pdfReader.numPages
56
>>> pageObj = pdfReader.getPage(9) #'9' is the page number
>>> pageObj.extractText()
ultima istruzione restituisce tutto il testo disponibile in pagina-9 del documento 'mio_file.pdf'.
Non so perché il voto negativo. Come ho detto, ho controllato tutto disponibile e anche su google. L'unico che ho trovato che può essere usato con Python 3.4 era in questo [dettaglio xPDF] (http://stackoverflow.com/questions/18320932/looking-for-recommendation-on-how-to-convert-pdf-into- strutturato-formato? lq = 1) tutti gli altri sono della versione 2.7. Non ho trovato nulla sulla versione 3.4 di Python. Richiesta di commentare anche quando è stato votato. – Bonson