Cerca soluzioni per estrarre il contenuto da un file PDF (utilizzando lo strumento console o una libreria).Estrai tutto da PDF
Sarà utilizzato sul server per produrre e-book on-line da file PDF caricati.
necessario estrarre seguenti cose:
- testo con caratteri e stili;
- immagini;
- audio e video;
- link e hotspot.
- istantanee e anteprime di pagine;
- informazioni PDF generiche, ad es. layout di libri, numero di pagine ecc
Guardando Adobe PDF Library ($ 5000 però), SDK BCL (?), PDFlib (€ 795), QuickPDF ($ 250)
Ora stiamo usando open source pdf2xml (estrae testo, immagini e collegamenti) e GhostScript (istantanee e miniature). Le altre cose lasciate sono:
- caratteri;
- multimedia;
- hotspot;
- informazioni sulla pagina.
Stiamo esitando tra pagare un sacco di soldi (e magari commettere errori scegliendo una soluzione sbagliata) o utilizzare soluzioni gratuite/open source.
Quale soluzione ottimale per estrarre quasi tutto dal PDF, si consiglia di?
Qualsiasi commento sarà molto apprezzato.
Difficoltà qui è che anche l'SDK commerciale richiederà sforzi di programmazione. Al sommario delle loro caratteristiche tutto sembra perfetto, tuttavia guardando nei campioni, non è ancora chiaro come estrarre ad esempio il video in un file esterno, si limitano a scaricare le informazioni di annotazione (parlando di PDFlib pCOS). – Max
Sì, dovresti tenerlo presente al costo. –