2012-02-01 15 views
10

C'è un modo per estrarre il testo e le note evidenziati da un file PDF a livello di programmazione? Qualsiasi lingua è benvenuta Ho trovato diverse librerie con Python, Java e anche PHP, ma nessuno di loro fa il lavoro.Come estrarre le note e le parti evidenziate dai file PDF

Non so se è possibile o no. Sono anche consapevole del fatto che alcuni programmi creano file aggiuntivi per conservare questo tipo di informazioni (se non sbaglio, Kindle genera un altro file.) Ma attualmente sono fuori portata.

+0

Grazie per la risposta. Ho anche trovato un altro modo per risolvere questo problema un po 'troppo a lungo :) Le note appiccicose create da Adobe Reader sono facili da analizzare perché le note adesive vengono aggiunte ai file PDF con informazioni sul contenuto e sulla posizione, ma per le evidenziazioni c'è solo un rettangolo infromation I dovrebbe estrarre il testo in base alla posizione. Quindi devo scrivere un codice per questo. Come libreria di base posso usare PDFMiner, che fornisce informazioni sulle posizioni dei testi. – user1183057

risposta

8

Ok, dopo aver cercato ho trovato una soluzione per esportare il testo evidenziato da un pdf in un file di testo. non è molto difficile:

  1. In primo luogo, si evidenzia il testo con lo strumento che si desidera utilizzare (nel mio caso, ho evidenziare mentre sto leggendo su un iPad utilizzando GoodReader app).

  2. Trasferimento vostro pdf a un computer e aprirlo con Skim (un lettore pdf, gratuito e facile da trovare sul web)

  3. su File, scegliere Converti note e di convertire tutte le note del documento per NOTE DI SCI.

  4. Tutto qui: basta andare in EXPORT e selezionare EXPORT SKIM NOTE. Ti verrà esportato un elenco del testo evidenziato. Una volta aperto, questo elenco può essere esportato nuovamente in un file di formato txt.

Non c'è molto da fare e il risultato è fantastico.

+3

Skim è solo per MAC. C'è un'alternativa a Windows? –

Problemi correlati