Come posso estrarre il contenuto del testo (non le immagini) da un PDF mentre (approssimativamente) mantenere lo stile e il layout come può fare Google Docs?come estrarre il contenuto di testo formattato da PDF
risposta
Per estrarre il testo dal PDF E ottenere la sua posizione è possibile utilizzare PDFMiner. PDFMiner può anche esportare il PDF direttamente in HTML mantenendo il testo in una buona posizione.
Non conosco il tuo caso d'uso, ma ci sono molti problemi che puoi incontrare quando fai questo perché il PDF è davvero orientato alla presentazione e non orientato al contenuto, il flusso del testo non è continuo. Quindi, se vuoi che il testo sia modificabile, non sarà un compito facile.
Se non hai il tuo cuore a fare questo con Python, Ghostscript può fare questo per voi. Controlla pdf2ascii (uno script che viene fornito con GS) per ottenere il testo normale. Gli stili sono più complicati in quanto possono essere specificati in diversi modi.
Se si vuole fare proprio come Google:
Google converte il PDF in un'immagine, e poi sovrapposte all'immagine, in cui il testo usato per essere, con JavaScript aree highlightable (che è di circa come per magia Voodoo) . Le aree sembrano essere di testo quando le si scorre sopra con il cursore, ma non lo sono. Questo potrebbe non aiutarti a sapere, ma è così che lo fanno. Se si desidera decodificarlo, è possibile iniziare con https://www.mercurial-scm.org/ Nella pagina iniziale, eseguono la stessa operazione con JavaScript per rendere il testo illuminabile e copiato. Puoi estrarre il testo dal PDF e trovare la sua posizione nella pagina con le librerie citate nelle altre risposte. Quindi puoi sovrapporre un'immagine estratta del file con lo stesso stile delle aree JavaScript.
ah hai ragione - stanno usando le immagini, che non è quello che voglio perché ho bisogno di manipolare il testo – hoju
Xpdf ha una chiamata di utilità PDFtoText che fa un ottimo lavoro. http://foolabs.com/xpdf/download.html
Acrobat Professional può fare il lavoro. Nel menu "File", seleziona l'esportazione. Quindi, scegli Testo.
- 1. estrarre il testo da PDF (devo link PDF) in Ruby
- 2. Come estrarre il testo da un file PDF in Python?
- 3. estraendo il contenuto da pdf usando PHP
- 4. Estrarre il contenuto da HttpResponseMessage
- 5. Estrarre la valuta dall'importo formattato
- 6. C'è un modo per estrarre il contenuto di un pdf da bash?
- 7. Come inserisco il testo formattato usando AutoHotkey?
- 8. come estrarre il testo da un oggetto Microsoft.IIs.PowerShell.Framework.ConfigurationElement
- 9. Esiste una libreria C++ per estrarre il testo da un file PDF come PDFBox per Java?
- 10. Come estrarre il testo da un file PDF con Apache PDFBox
- 11. estrarre il codice di latex da un file PDF
- 12. Come estrarre il contenuto HTML da TinyMCE Editor
- 13. jQuery: come estrarre il testo da elemento specifico all'interno variabile
- 14. Emettere testo formattato (incluso il codice sorgente) come LaTeX, PDF e HTML
- 15. estrarre il testo da tex, rimuovere i tag in lattice
- 16. Estrazione di testo da PDF in C#
- 17. Posso estrarre tabelle da PDF usando Perl?
- 18. Estrai testo da file pdf e word
- 19. Come estrarre immagini e testo in ordine da file PDF utilizzando iText su Android
- 20. Estrarre nomi da testo (Java)
- 21. C# Estrai il testo da PDF usando PdfSharp
- 22. Html visualizza testo formattato
- 23. Leggere il testo da PDF in .NET
- 24. pyPdf impossibile estrarre il testo da alcune pagine nel mio PDF
- 25. Come estrarre il testo da un file PSD?
- 26. come estrarre il testo principale da html usando Tika
- 27. Estrarre il contenuto del bootstrapper di masterizzazione
- 28. Android- Ottieni testo da PDF
- 29. Come estrarre immagini da PDF usando Ghostscript o ImageMagick?
- 30. Leggere il testo del contenuto da SyndicationContent
Questo pacchetto è disponibile in ubuntu sotto il nome 'python-pdfminer', e il comando è' pdf2txt' . – naught101