2012-12-10 10 views
5

C'è un modo per estrarre il contenuto di un pdf da bash? (Ho una grande cartella di articoli accademici, che purtroppo hanno etichette come "1010.3423.pdf". Mi piacerebbe scrivere uno script bash per nominarli più sensibilmente, il che implica, ad esempio, googling le prime righe.)C'è un modo per estrarre il contenuto di un pdf da bash?

+0

possibile duplicato di [come estrarre il contenuto di testo formattato da PDF] (http://stackoverflow.com/questions/2196621/how-to-extract-formatted-text-content-from-pdf) –

risposta

3

C'è pdftotext, che può aiutarti a ottenere il titolo e gli autori dal file pdf. Puoi quindi utilizzare questo per google o generare un nome di te stesso.

1

pdf2xml vi fornirà informazioni più dettagliate, ho cercato un programma di utilità del genere l'anno scorso e, tra tutti, penso che il pdf2xml sia il migliore.

Problemi correlati