come estrarre il contenuto di testo formattato da PDF

15

Come posso estrarre il contenuto del testo (non le immagini) da un PDF mentre (approssimativamente) mantenere lo stile e il layout come può fare Google Docs?come estrarre il contenuto di testo formattato da PDF

fonte

2010-02-04 hoju

9

Per estrarre il testo dal PDF E ottenere la sua posizione è possibile utilizzare PDFMiner. PDFMiner può anche esportare il PDF direttamente in HTML mantenendo il testo in una buona posizione.

Non conosco il tuo caso d'uso, ma ci sono molti problemi che puoi incontrare quando fai questo perché il PDF è davvero orientato alla presentazione e non orientato al contenuto, il flusso del testo non è continuo. Quindi, se vuoi che il testo sia modificabile, non sarà un compito facile.

fonte

2010-02-04 02:13:20 Etienne

+0

Questo pacchetto è disponibile in ubuntu sotto il nome 'python-pdfminer', e il comando è' pdf2txt' . – naught101

6

Hai provato pyPDF o ReportLab librerie PDF? Io personalmente non li ho usati ma puoi provarli. here è utile anche

fonte

2010-02-04 01:04:06 ghostdog74

3

Se non hai il tuo cuore a fare questo con Python, Ghostscript può fare questo per voi. Controlla pdf2ascii (uno script che viene fornito con GS) per ottenere il testo normale. Gli stili sono più complicati in quanto possono essere specificati in diversi modi.

fonte

2010-02-04 01:23:43

4

Se si vuole fare proprio come Google:

Google converte il PDF in un'immagine, e poi sovrapposte all'immagine, in cui il testo usato per essere, con JavaScript aree highlightable (che è di circa come per magia Voodoo) . Le aree sembrano essere di testo quando le si scorre sopra con il cursore, ma non lo sono. Questo potrebbe non aiutarti a sapere, ma è così che lo fanno. Se si desidera decodificarlo, è possibile iniziare con https://www.mercurial-scm.org/ Nella pagina iniziale, eseguono la stessa operazione con JavaScript per rendere il testo illuminabile e copiato. Puoi estrarre il testo dal PDF e trovare la sua posizione nella pagina con le librerie citate nelle altre risposte. Quindi puoi sovrapporre un'immagine estratta del file con lo stesso stile delle aree JavaScript.

fonte

2010-02-04 01:25:54 orokusaki

+0

ah hai ragione - stanno usando le immagini, che non è quello che voglio perché ho bisogno di manipolare il testo – hoju

4

Xpdf ha una chiamata di utilità PDFtoText che fa un ottimo lavoro. http://foolabs.com/xpdf/download.html

fonte

2011-07-05 17:21:56 chrisfs

3

Acrobat Professional può fare il lavoro. Nel menu "File", seleziona l'esportazione. Quindi, scegli Testo.

fonte

2012-10-24 19:39:41 Shawn

come estrarre il contenuto di testo formattato da PDF

risposta

Problemi correlati