2009-11-23 17 views
5

Potresti dirmi come estrarre il contenuto dal documento PDF usando PHP? La formattazione è il problema principale che sto affrontando qui. Quindi fammi sapere, se ci sono alcuni modi per estrarre contenuti con lo stesso formato e visualizzarli su un editor di testo online.estraendo il contenuto da pdf usando PHP

Grazie

risposta

0

Per quanto posso vedere, è non possibile convertire un PDF in HTML modificabile utilizzando PHP al volo, pur preservando la formattazione. Esistono diverse app per desktop in merito a tutto il prova per estrarre i dati dai PDF con risultati a volte più, a volte meno affidabili. Direi che non è realisticamente possibile al momento e tutto quello che puoi fare è estrarre testo in chiaro usando XPDF o altri strumenti da riga di comando.

Potrebbe essere diverso con il nuovo formato PDF basato su XML, ma non ne so ancora nulla.

Sentitevi liberi di mettermi in errore, ovviamente - sarei molto interessato a me stesso se ci fosse una soluzione.

1

Date un'occhiata al XPDF

Suppongo che si possa fare

$text = shell_exec("pdftotext $pdffile"); 

Per quanto riguarda la visualizzazione in un editor? Bene, quale editor? Per mantenere un certo tipo di informazioni di formattazione e assumendo per editor Web si intende l'editor HTML, è possibile convertirlo in HTML. Forse ci sono altri strumenti disponibili, ma dal momento che io uso xpdf mi sono imbattuto nel convertitore this basato su xpdf.

Utilizzo base

pdftohtml -noframes -c test.pdf test.html 

per farlo nel vostro editor preferito

echo file_get_contents('test.html'); 

Potrebbe essere necessario per avvolgere le cose dentro funzioni/classi PHP. E potresti voler aggiungere misure di sicurezza e quant'altro.

+0

Qualsiasi editor personalizzato sviluppato online per un sito Web. – jose