2010-01-19 14 views
5

Così ho file ....E 'possibile estrarre informazioni Meta da file MS Office e/o PDF con PHP?

.doc 
.docx 
.xls 
.xlsx 
and .pdf 

che sono sul mio server.

E 'possibile (e se lo è, come) estrarre i metadati da quei file usando PHP? Sto cercando cose come Autore, parole chiave, titolo, ecc ...

Nei documenti di ufficio sono le informazioni memorizzate insieme alle proprietà del documento (File ... Proprietà ... Riepilogo per 2003, Preparazione .. .Properties per il 2007).

Nei PDF le informazioni sono disponibili in Proprietà documento.

Questo è non su un server Windows.

+0

Tutto è possibile in PHP, è completo. Un modo semplice e portatile per farlo è però un'altra domanda. – Earlz

risposta

2

Sono riuscito a estrarre molte informazioni Meta utilizzando XPDF su un sistema Linux qualche anno fa. Oggi, però, direi che lo Zend_PDF è la soluzione migliore. Non l'ho usato da solo, ma sembra buono e promette tutto il necessario. Sembra che non ci siano dipendenze di libreria.

Per Word .DOC, se non si trova un modo migliore, collegarsi a un'istanza del server OpenOffice/riga di comando e convertire i file in ODT, che è XML e parseable. Se non è possibile estrarre i metadati per Macro, dovrebbe essere, ma non so quanto lavoro sia. This OpenOffice Forum entry fornisce una tonnellata di punti di partenza per la conversione automatica.

I ... formati X sono una sorta di XML, quindi dovrebbe essere facilmente possibile recuperare i metadati da loro. In alternativa, dovresti essere in grado di utilizzare i filtri di conversione di OpenOffice anche qui, se trasportano i metadati.

+0

Finora, tutto bene - Zend_PDF ha fatto il trucco per i PDF. - il prossimo è i documenti dell'ufficio. – Jason

+1

Bello! Assicurati di tenerci aggiornati, sono sicuro che sarà utile per molte persone. Forse questo è di ulteriore interesse, o può darti alcuni suggerimenti. http://meta-extractor.sourceforge.net/ –

Problemi correlati