Come posso estrarre il testo da file PDF o Word (rimuovi in grassetto, immagini e altri supporti di formattazione rich text) in C#?Estrai testo da file pdf e word
risposta
È possibile utilizzare i filtri progettati per/utilizzati dal servizio di indicizzazione. Sono progettati per estrarre il testo normale da vari documenti, che è utile per la ricerca all'interno di un documento. Puoi usarlo per file Office, PDF, HTML e così via, praticamente qualsiasi tipo di file che ha un filtro. L'unico svantaggio è che devi installare questi filtri sul server, quindi se non hai accesso diretto al server questo potrebbe non essere possibile. Alcuni filtri sono preinstallati con Windows, ma alcuni, come PDF, devi installarti. Per un'implementazione C# consulta questo articolo: Using IFilter in C#
Per PDF Hai preso uno sguardo al TallPDF
Controllare anche questo: http://www.codeproject.com/KB/files/PDF_to_TEXT.aspx
modello a oggetti Utilizzare Word, è l'unico modo affidabile dal formato Word non è aperto e variano da versione a versione.
Ma come? Questa è una risposta inutile senza un esempio di codice. – KyleM
PDF:
Sono disponibili varie opzioni.
pdftotext:
Scaricare il XPDF utilities. Nel file .zip ci sono varie utility a riga di comando. Uno è pdftotext(.exe)
. Può estrarre tutto il contenuto del testo da un file PDF funzionante. Digitare pdftotext -help
per informazioni su alcuni se i suoi parametri della riga di comando.
Ghostscript:
Installare il latest version of Ghostscript (v.8.71). Ghostscript è un interprete PostScript e PDF. Si può usare per estrarre il testo da un PDF così: testo di output
gswin32c.exe^
-q^
-sFONTPATH=c:/windows/fonts^
-dNODISPLAY^
-dSAFER^
-dDELAYBIND^
-dWRITESYSTEMDICT^
-dSIMPLE^
-f ps2ascii.ps^
-dFirstPage=3^
-dLastPage=7^
input.pdf^
-dQUIET
Questa volontà contenuta nelle pagine 3-7 di input.pdf
a stdout. È possibile reindirizzare questo ad un file aggiungendo > /path/to/output.txt
al comando. (Controllare per assicurarsi che il programma di utilità PostScript ps2ascii.ps
è presente in lib
sottodirectory del vostro Ghostscript.)
Se si omette il parametro -dSIMPLE
, l'output di testo sarà indovinare interruzioni di linea e spaziature di parola. Per i dettagli guarda i commenti all'interno del file ps2ascii.ps
stesso. Puoi anche sostituire quel parametro con -dCOMPLEX
per ottenere ulteriori informazioni sulla formattazione del testo.
XPDF funziona meglio di qualsiasi cosa che ho trovato – chrisfs
Si potrebbe voler esaminare PDFBox. Ecco un link a una pagina del progetto del codice che mostra come usarlo in C# così come altri commenti utili.
http://www.codeproject.com/KB/string/pdf2text.aspx
Per quanto riguarda Word il suggerimento di utilizzare il modello di oggetti di Word è probabilmente la più accurata.
Docotic.Pdf library può essere utilizzato per estrarre il testo da file PDF.
La libreria può extract plain text and text with formatting. Inoltre, è possibile recuperare un collection of words o caratteri con rettangoli di delimitazione utilizzando l'API della libreria.
Disclaimer: Lavoro per il venditore della biblioteca.
- 1. Estrai tutto da PDF
- 2. Estrai testo e immagini da PDF usando iText5
- 3. C# Estrai il testo da PDF usando PdfSharp
- 4. Estrai oggetto OLE (pdf) da Access DB
- 5. Estrai nomi campo modulo PDF da un modulo PDF
- 6. Estrai/Identifica tabelle da PDF python
- 7. Estrai immagine da PDF usando .Net C#
- 8. Scrapy: Estrai link e testo
- 9. Crea file PDF/Word (Doc) nell'app
- 10. Estrai testo per pagina con Python pdfMiner?
- 11. Estrai testo del corpo da Email PHP
- 12. Android- Ottieni testo da PDF
- 13. iTextSharp - Converti word doc/docx in pdf
- 14. Estrazione dati casella di testo da più file Microsoft Word
- 15. Copia il testo da file word a una nuova parola
- 16. Estrai file da file ZIP con VBScript
- 17. Converti documento Word in PDF utilizzando Java
- 18. Estrai JSON dal testo
- 19. Salvataggio di file DOCX di Word come PDF
- 20. Estrai binari da db a file JSON
- 21. Estrazione di testo da un file PDF utilizzando Python
- 22. Come produrre file PDF da QGraphicsScene con testo copiabile?
- 23. Documenti di Word di indicizzazione e PDF con Sfinge
- 24. Come estrarre il testo da un file PDF in Python?
- 25. Salva incorporato Word Doc in PDF
- 26. Esportare tabelle jsp per Excel, word, pdf
- 27. Estrai testo dopo carattere specifico
- 28. ottenere testo paragrafo da pdf utilizzando itextsharp
- 29. Word wrap nel PDF generato (utilizzando jsPDF)?
- 30. estrarre il testo da PDF (devo link PDF) in Ruby
Questo è esattamente ciò di cui avevo bisogno. Grazie! –