Voglio scrivere uno script per rinominare automaticamente i fogli scaricati con i loro titoli automaticamente, mi chiedo se non ci sono librerie o trucchi che posso usare? I PDF sono tutti generati da TeX e dovrebbero avere alcune strutture "formali".Estrazione di titoli da file PDF?
13
A
risposta
13
Si potrebbe provare a utilizzare pyPdf e this example.
ad esempio:
from pyPdf import PdfFileWriter, PdfFileReader
def get_pdf_title(pdf_file_path):
with open(pdf_file_path) as f:
pdf_reader = PdfFileReader(f)
return pdf_reader.getDocumentInfo().title
title = get_pdf_title('/home/user/Desktop/my.pdf')
2
Probabilmente inizierei con perl (visto che è sempre la prima cosa che raggiungo). Ci sono several modules for handling PDFs. Se si dispone di una struttura coerente, è possibile utilizzare regex per aggirare i titoli.
2
0
assumendo che tutte queste carte sono da arXiv, si potrebbe invece estrarre l'id arXiv (direi che la ricerca di "arXiv:" nel testo del PDF rivelerebbe costantemente l'id come primo hit).
Una volta ottenuto il numero di riferimento arXiv (e hanno fatto un pip install arxiv
), è possibile ottenere il titolo utilizzando
paper_ref = '1501.00730'
arxiv.query(id_list=[paper_ref])[0].title
Problemi correlati
- 1. Estrazione di testo da un file PDF utilizzando Python
- 2. Estrazione di testo da PDF in C#
- 3. Estrazione grafica vettoriale da pdf con Inkscape
- 4. Estrazione dell'immagine da PDF con/CCITTFaxDecode filter
- 5. Estrazione di testo PDF semplice su Android?
- 6. Estrazione del testo pdf nell'obiettivo C
- 7. Estrazione di testo da un file PDF utilizzando PDFMiner in python?
- 8. Estrazione del testo PDF con iText
- 9. JAR - estrazione di file specifici
- 10. Estrazione EXIF da JPEG
- 11. file pdf Knit da RStudio
- 12. crea file PDF da Android
- 13. Tabella di estrazione da DOCX
- 14. Approccio di estrazione del testo in PDF tramite l'OCR
- 15. Estrazione di una tabella da un file di dump mysql.sql
- 16. Estrazione di nomi di file da un percorso MYSQL
- 17. Tempo di estrazione da POSIXct
- 18. Estrazione di stderr da pexpect
- 19. estrazione di colori da un'immagine
- 20. estrazione di valore da un file utilizzando il codice
- 21. Estrazione di dati da un semplice file XML
- 22. Estrazione dati casella di testo da più file Microsoft Word
- 23. estrazione da un file tar con nomi di voci duplicate
- 24. Estrazione rgb da UIColor
- 25. Estrazione caratteri da stringa
- 26. Estrazione di layout di tastiera da windows
- 27. Estrazione di frame di un file .avi
- 28. Estrazione di frame da MP4/FLV?
- 29. zlib C++ ed estrazione di file
- 30. Estrazione del testo Itextsharp
Dove si ottiene il titolo PDF da? Queste informazioni devono essere estratte dalle proprietà del documento PDF o dai contenuti PDF o stai estraendo tali informazioni da un'altra fonte? – Rowan
Possibile duplicato di [Estrazione di informazioni da PDF di documenti di ricerca] (http://stackoverflow.com/questions/1813427/extracting-information-from-pdfs-of-research-papers) – Seanny123