Non riesco a trovare alcun pacchetto per farlo. So che PHP ha un sacco di librerie per PDF (come http://www.fpdf.org/) ma qualcosa per Node?Posso leggere documenti PDF o Word con Node.js?
risposta
È possibile convertire facilmente uno in un altro, o utilizzare ad esempio un .doc modello per generare un file .pdf, ma probabilmente vorrai utilizzare un servizio web esistente per questa attività.
Questo può essere fatto utilizzando i servizi di Livedocx ad esempio
Per utilizzare questo servizio dal nodo, vedere node-livedocx (Disclaimer: io sono l'autore di questo modulo nodo)
Sembra che ce ne siano alcuni per il pdf, ma non ne ho trovato nessuno per Word.
L'elaborazione legata alla CPU come quella non è realmente il punto di forza del nodo in ogni caso (cioè non si ottengono ulteriori vantaggi utilizzando il nodo per farlo su qualsiasi altra lingua). Un approccio pragmatico sarebbe quello di trovare uno strumento valido e utilizzarlo dal nodo.
ho sentito parlare bene di tutto l'ufficio su docsplit http://documentcloud.github.com/docsplit/
Anche se non è il nodo, si potrebbe facilmente richiamarlo dal nodo con http://nodejs.org/docs/latest/api/all.html#child_process.exec
Il vantaggio di una soluzione di pura JS è che è portatile tra il browser e il Nodo – sdgfsdh
textract è un grande lib che supporta PDF, Doc, Docx, ecc.
Nota: textract utilizza catdoc per i file '.doc' e non funziona in Windows. – Tracker1
node-office non è in sviluppo attivo (npm dice end of life), hwile textract viene attivamente sviluppato a partire da settembre 2016. – steampowered
Suggerirei di esaminare unoconv per la conversione iniziale, questo utilizza LibreOffice o OpenOffice per la conversione effettiva. Che aggiunge un po 'di spese generali.
sarei messa a punto alcuni operai con tutta la messa a punto di prima necessità, e utilizzare una coda di richiesta/risposta per la gestione della conversione ... (potrebbe voler guardare in kue o)
In generale si tratta di un Compito legato alla CPU e attività pesante che dovrebbero essere scaricate ... Pandoc e altri menzionano specificamente .docx
, non .doc
in modo che possano o meno essere opzioni pure.
Nota: So che questa domanda è vecchio, solo voluto fornire una risposta in corso per gli altri a venire in questo.
per analizzare file PDF, è possibile utilizzare il modulo pdf2json nodo
Esso consente di convertire i file pdf a JSON e per i dati di testo grezzi.
Un'altra buona opzione se è necessario convertire solo da documenti di Word è Mammoth.js.
Mammoth è progettato per convertire i documenti .docx, come quelli creati da Microsoft Word, e li converte in HTML. Mammoth mira a produrre HTML semplice e pulito utilizzando le informazioni semantiche nel documento, e ignorando altri dettagli. Ad esempio, Mammoth converte qualsiasi paragrafo con lo stile Titolo da 1 a elementi h1, invece di tentando di copiare esattamente lo stile (carattere, dimensione del testo, colore, ecc.) dell'intestazione.
C'è una grande discrepanza tra la struttura utilizzata da .docx e la struttura di HTML, il che significa che la conversione è improbabile che sia perfetta per documenti più complicati. Mammoth funziona meglio se si utilizza solo gli stili per contrassegnare semanticamente il documento.
è possibile utilizzare il testo PDF per i file PDF. estrarrà il testo da un pdf in una serie di "blocchi" di testo. Utile per eseguire l'analisi fuzzy su testo strutturato in PDF.
var pdfText = require('pdf-text')
var pathToPdf = __dirname + "/info.pdf"
pdfText(pathToPdf, function(err, chunks) {
//chunks is an array of strings
//loosely corresponding to text objects within the pdf
//for a more concrete example, view the test file in this repo
})
var fs = require('fs')
var buffer = fs.readFileSync(pathToPdf)
pdfText(buffer, function(err, chunks) {
console.log(chunks)
})
per file docx è possibile utilizzare mammoth, estrarrà testo da file .docx.
var mammoth = require("mammoth");
mammoth.extractRawText({path: "./doc.docx"})
.then(function(result){
var text = result.value; // The raw text
console.log(text);
var messages = result.messages;
})
.done();
Spero che questo possa essere d'aiuto.
Ecco un esempio che mostra come scaricare ed estrarre il testo da un file PDF utilizzando PDF.js:
import _ from 'lodash';
import superagent from 'superagent';
import pdf from 'pdfjs-dist';
const url = 'http://unec.edu.az/application/uploads/2014/12/pdf-sample.pdf';
const main = async() => {
const response = await superagent.get(url).buffer();
const data = response.body;
const doc = await pdf.getDocument({ data });
for (const i of _.range(doc.numPages)) {
const page = await doc.getPage(i + 1);
const content = await page.getTextContent();
for (const { str } of content.items) {
console.log(str);
}
}
};
main().catch(error => console.error(error));
- 1. Documenti di Word di indicizzazione e PDF con Sfinge
- 2. Unisci documenti Microsoft Word con TortoiseSVN
- 3. Come caricare immagini, documenti Word e/o file PDF tramite Paperclip rotaie 4
- 4. Generazione di documenti word con PHP
- 5. Come produrre documenti (docx o pdf) da SQL Server?
- 6. Come generare documenti di Microsoft Word utilizzando Sfinge
- 7. CGPDFDocument impossibile leggere pdf
- 8. Estrai testo da file pdf e word
- 9. Esportare tabelle jsp per Excel, word, pdf
- 10. Salvataggio di file DOCX di Word come PDF
- 11. Creazione di un nuovo PDF unendo documenti PDF usando TCPDF
- 12. Aggiungere documenti MS Office in PDF tramite Apache PDFBox
- 13. iTextSharp - Converti word doc/docx in pdf
- 14. Salva incorporato Word Doc in PDF
- 15. Come posso creare documenti PDF LaTeX con ANT (o qualche altro sistema di build se si preferisce)?
- 16. Generazione di documenti word (.doc/.odt) tramite C++/Qt
- 17. Crea file PDF/Word (Doc) nell'app
- 18. Utilizzo di Process.Start per stampare documenti senza mostrare Word
- 19. Leggere documenti Microsoft Word in testo normale (DOC, DOCX) in Java
- 20. API di Google Documenti per Node.js
- 21. Converti documento Word in PDF utilizzando Java
- 22. Word wrap nel PDF generato (utilizzando jsPDF)?
- 23. Come visualizzare PDF o Word DOC/DOCX nella finestra di WinForms?
- 24. jQueryMobile - impossibile collegarsi ai documenti PDF
- 25. confrontando a livello di codice i documenti word
- 26. Leggere un documento PDF in Android
- 27. Indice documenti PDF in Solr dal client C#
- 28. Problema Sblocco password Documenti PDF protetti
- 29. Node.JS con NoSQL o SQL?
- 30. Leggere il contenuto PDF con itextsharp dll in VB.NET o C#
va bene, questo è stretto figlio. Ben fatto. – Alan