2010-02-04 19 views

risposta

9

Per estrarre il testo dal PDF E ottenere la sua posizione è possibile utilizzare PDFMiner. PDFMiner può anche esportare il PDF direttamente in HTML mantenendo il testo in una buona posizione.

Non conosco il tuo caso d'uso, ma ci sono molti problemi che puoi incontrare quando fai questo perché il PDF è davvero orientato alla presentazione e non orientato al contenuto, il flusso del testo non è continuo. Quindi, se vuoi che il testo sia modificabile, non sarà un compito facile.

+0

Questo pacchetto è disponibile in ubuntu sotto il nome 'python-pdfminer', e il comando è' pdf2txt' . – naught101

3

Se non hai il tuo cuore a fare questo con Python, Ghostscript può fare questo per voi. Controlla pdf2ascii (uno script che viene fornito con GS) per ottenere il testo normale. Gli stili sono più complicati in quanto possono essere specificati in diversi modi.

4

Se si vuole fare proprio come Google:

Google converte il PDF in un'immagine, e poi sovrapposte all'immagine, in cui il testo usato per essere, con JavaScript aree highlightable (che è di circa come per magia Voodoo) . Le aree sembrano essere di testo quando le si scorre sopra con il cursore, ma non lo sono. Questo potrebbe non aiutarti a sapere, ma è così che lo fanno. Se si desidera decodificarlo, è possibile iniziare con https://www.mercurial-scm.org/ Nella pagina iniziale, eseguono la stessa operazione con JavaScript per rendere il testo illuminabile e copiato. Puoi estrarre il testo dal PDF e trovare la sua posizione nella pagina con le librerie citate nelle altre risposte. Quindi puoi sovrapporre un'immagine estratta del file con lo stesso stile delle aree JavaScript.

+0

ah hai ragione - stanno usando le immagini, che non è quello che voglio perché ho bisogno di manipolare il testo – hoju

3

Acrobat Professional può fare il lavoro. Nel menu "File", seleziona l'esportazione. Quindi, scegli Testo.

Problemi correlati