2009-11-12 17 views
8

Cerca soluzioni per estrarre il contenuto da un file PDF (utilizzando lo strumento console o una libreria).Estrai tutto da PDF

Sarà utilizzato sul server per produrre e-book on-line da file PDF caricati.

necessario estrarre seguenti cose:

  1. testo con caratteri e stili;
  2. immagini;
  3. audio e video;
  4. link e hotspot.
  5. istantanee e anteprime di pagine;
  6. informazioni PDF generiche, ad es. layout di libri, numero di pagine ecc

Guardando Adobe PDF Library ($ 5000 però), SDK BCL (?), PDFlib (€ 795), QuickPDF ($ 250)

Ora stiamo usando open source pdf2xml (estrae testo, immagini e collegamenti) e GhostScript (istantanee e miniature). Le altre cose lasciate sono:

  1. caratteri;
  2. multimedia;
  3. hotspot;
  4. informazioni sulla pagina.

Stiamo esitando tra pagare un sacco di soldi (e magari commettere errori scegliendo una soluzione sbagliata) o utilizzare soluzioni gratuite/open source.

Quale soluzione ottimale per estrarre quasi tutto dal PDF, si consiglia di?

Qualsiasi commento sarà molto apprezzato.

risposta

4

Sembra uno sforzo di alcuni giorni o settimane, è possibile adattare gli strumenti open source alle proprie esigenze. È possibile estrarre i caratteri e tutto, questo è qualcosa che ogni lettore di PDF deve fare comunque per visualizzarli.

Probabilmente dovresti prendere una stima dei costi del programmatore ($/h) e moltiplicarla per il tempo stimato necessario per aggiungere la funzionalità open source necessaria (60-80 ore?). Se questo è maggiore o vicino a $ 5000, potresti prendere in considerazione solo l'acquisto del software commerciale.

Altrimenti, con l'aiuto del (abbastanza buono) PDF reference, dovresti essere sulla buona strada.

Un'altra cosa, potresti trovare utile il Poppler. È per il rendering di PDF, ma questo è molto correlato a ciò che stai cercando di fare.

+0

Difficoltà qui è che anche l'SDK commerciale richiederà sforzi di programmazione. Al sommario delle loro caratteristiche tutto sembra perfetto, tuttavia guardando nei campioni, non è ancora chiaro come estrarre ad esempio il video in un file esterno, si limitano a scaricare le informazioni di annotazione (parlando di PDFlib pCOS). – Max

+0

Sì, dovresti tenerlo presente al costo. –

1

A: Carattere: non penso che i caratteri possano essere estratti.

B: Non sono sicuro sul multimedia

C: Quali sono gli hotspot?

D: Dai un'occhiata a iTextSharp (open source), potresti essere in grado di estrarre più informazioni sulla pagina.

+0

> A: Font: Non penso che i caratteri possano essere estratti. Abbiamo bisogno di nomi di font appropriati almeno per usare i font di sistema. > B: Non sono sicuro dei multimedia I multimedia sono in oggetti annotazioni in PDF come so, quindi la soluzione dovrebbe essere in grado di scorrere attraverso di essi nel pdf per estrarre correttamente? > C: quali sono gli hotspot? Hotspot è un tipo di collegamento rettangolare ad esempio su una parte dell'immagine. > Dai un'occhiata a iTextSharp (open source), potresti essere in grado di estrarre più informazioni sulla pagina. Grazie, farò un tentativo. – Max

+0

Mi sembra che iText sia per generare file PDF non per estrarne il contenuto. Non è vero? – Max

+0

Sì, è principalmente per la generazione di file PDF, ho pensato che potresti essere in grado di estrarre alcune informazioni, come il numero di pagine, le dimensioni della pagina e possibilmente le informazioni sulla pagina? Dai un'occhiata anche a http://www.tallcomponents.com/ hanno anche degli strumenti decenti. –

0

Sì, è possibile estrarre i testi, le informazioni di stile del testo, le immagini, le annotazioni dei collegamenti, i segnalibri e persino è possibile ottenere le informazioni sull'ID del paragrafo, ad eccezione delle tabelle. Controlla questo link.

http://www.pdftron.com/pdfnet/index.html

funziona davvero bene.

+0

@MS - E i video? –

0

tika http://tika.apache.org/ Il suo vantaggio è estrarre il testo da più tipi. ma può risolvere anche il tuo problema.

Per l'implementazione: L'obiettivo di Tika è di riutilizzare le librerie di parser esistenti come PDFBox o Apache POI il più possibile, e così la maggior parte delle classi di parser in Tika sono adattatori a tali librerie esterne.

Penso che tika possa funzionare come tu descrivi. Estrarre le cose con le categorie. (Aggiungerà più codice in seguito.)


Non ancora una risposta esatta.

+0

Spiegare qualcosa a riguardo, solo il collegamento dato non è considerato come risposta –

1

C'è anche PDF Suite che contiene 3 SDK appositamente progettati per estrarre il contenuto da PDF, renderizzare PDF come immagine e convertirlo in html. Sebbene nessuna estrazione di file di font, supporta l'output XML e l'estrazione del testo preservando il layout originale.

C'è una utility gratuita "PDF Multitool" basata su questo motore in modo da giocare con esso per vedere come funziona per i file PDF che avete.

Disclaimer: Lavoro per ByteScout

+0

Può essere utilizzato per estrarre file video da PDF che li hanno? Come? –

+0

è già in lavorazione per la prossima versione, sarà in grado di estrarre anche il video –

+0

Ho ricevuto via email il supporto tecnico della tua azienda e non ho avuto risposta. Facci sapere quando viene aggiunta l'estrazione video all'utilità gratuita Multi-tool PDF. –