2010-10-15 16 views
5

Ho bisogno di estrarre gli oggetti tabella dai documenti PDF preferibilmente a livello di codice usando Perl. Sono in grado di tagliare e incollare in Excel, ma la tabella richiederebbe un bel po 'di modifica manuale una volta che i dati sono stati importati in Excel.Posso estrarre tabelle da PDF usando Perl?

Ho effettuato alcune ricerche, ma finora sembra che la maggior parte dei forum suggerisca che la maggior parte delle API sono molto primitive.

+0

Ho appena trascorso una mezza giornata cercando di fare esattamente questo. La mia conclusione è stata che sarebbe stato più rapido copiare e incollare in Excel piuttosto che cercare di estrarre i dati da un PDF a livello di programmazione. – CanSpice

+1

Hai guardato su CPAN? Ci sono diverse API molto apprezzate lì. Ci sono anche alcune opzioni non libere come PDFlib che possono essere utilizzate da Perl e funzionano molto bene. – Cfreak

+0

@Cfreak, sì, ho guardato il CPAN; come detto sopra, non sembra che quei moduli possano leggere oggetti in PDF. Se mi sbaglio, mi piacerebbe che qualcuno indicasse il modulo corretto e come usarlo per leggere un tavolo. – Face

risposta

2

Il modulo migliore che conosco per la gestione dei PDF in perl è PDF::API2. Tuttavia, senza saperne di più sulla manipolazione, è necessario fare il possibile per dare ulteriori consigli. Un'altra possibilità è quella di programmare utilizzando la funzionalità VB incorporata di Excel in modo che quando copi le tabelle nel foglio di calcolo Excel, venga attivata una macro che eseguirà la formattazione per te.

+1

Tutto ciò di cui ho bisogno è elaborare il testo che è nella tabella. Tenendo presente che una cella può avere (campi vuoti, più righe, spazi, coma ecc.). Che se taglio e incolla presenta una sfida in termini di quale delimitatore dire a Excel di usare. – Face

Problemi correlati