C'è un modo per estrarre il contenuto di un pdf da bash? (Ho una grande cartella di articoli accademici, che purtroppo hanno etichette come "1010.3423.pdf". Mi piacerebbe scrivere uno script bash per nominarli più sensibilmente, il che implica, ad esempio, googling le prime righe.)C'è un modo per estrarre il contenuto di un pdf da bash?
5
A
risposta
3
C'è pdftotext, che può aiutarti a ottenere il titolo e gli autori dal file pdf. Puoi quindi utilizzare questo per google o generare un nome di te stesso.
3
provare pdftotext per estrarre il testo? http://en.wikipedia.org/wiki/Pdftotext
1
pdf2xml vi fornirà informazioni più dettagliate, ho cercato un programma di utilità del genere l'anno scorso e, tra tutti, penso che il pdf2xml sia il migliore.
Problemi correlati
- 1. come estrarre il contenuto di testo formattato da PDF
- 2. estrarre il codice di latex da un file PDF
- 3. Estrarre il contenuto da HttpResponseMessage
- 4. estrarre il testo da PDF (devo link PDF) in Ruby
- 5. estraendo il contenuto da pdf usando PHP
- 6. Come estrarre il testo da un file PDF in Python?
- 7. Esiste una libreria C++ per estrarre il testo da un file PDF come PDFBox per Java?
- 8. Utilizzo di openssl per estrarre informazioni da un certificato pkcs12
- 9. Come estrarre un elemento particolare da una matrice in BASH?
- 10. Modo generalizzato per estrarre JSON da un database relazionale?
- 11. Posso estrarre tabelle da PDF usando Perl?
- 12. Come estrarre i nomi di file da un campo che contiene contenuto html nel server sql?
- 13. Il modo più veloce per estrarre un frame specifico da un video (PHP/ffmpeg/anything)
- 14. bash: estrarre le ultime due dir per un percorso
- 15. Come estrarre il tipo da un campo?
- 16. Compila moduli PDF da Python o bash
- 17. Estrarre il contenuto del bootstrapper di masterizzazione
- 18. estrarre parole da un file
- 19. Un modo più intelligente per estrarre dalla matrice di bit?
- 20. Come estrarre il contenuto HTML da TinyMCE Editor
- 21. Estrarre un intervallo da NSArray
- 22. Come estrarre il testo da un file PDF con Apache PDFBox
- 23. Creare un sommario da un file pdf
- 24. Utilizzo di JSoup per estrarre il contenuto della tabella HTML
- 25. Estrarre un file da una stringa ZIP
- 26. Il modo migliore per estrarre gli elementi da un array 10 alla volta
- 27. Qual è il modo più veloce per estrarre determinate righe e colonne da un ndarray Numpy?
- 28. come estrarre il testo da un oggetto Microsoft.IIs.PowerShell.Framework.ConfigurationElement
- 29. Qual è il modo più efficiente per estrarre una data da un timestamp in PostgreSQL?
- 30. Come estrarre un po 'in modo ottimale?
possibile duplicato di [come estrarre il contenuto di testo formattato da PDF] (http://stackoverflow.com/questions/2196621/how-to-extract-formatted-text-content-from-pdf) –