2010-03-05 13 views
9

Quello che mi serve è leggere il pdf, fare alcune trasformazioni (generare segnalibri del TOC) e scriverlo.Haskell: parsing PDF

ho trovato questo http://hackage.haskell.org/package/HPDF, ma si parla solo la generazione di PDF, non l'analisi (anche se avrei potuto perso)

Haskell viene scelto esclusivamente per (auto) a scopo didattico.

+0

Prima di poter indovinare quanto lavoro è necessario per scrivere un parser PDF, è necessario acquistare le specifiche ISO per CHF380 (circa £ 243 o $ 353). Sospetto che questo mette le persone fuori. –

+3

In qualche modo non sembra fermare per esempio le persone ruby ​​/ perl. – artemave

+4

È possibile scaricare una società gratuita delle specifiche PDF dal sito Web di Adobe: http://www.adobe.com/devnet/pdf/pdf_reference.html Ospitano una versione non ufficiale delle specifiche ISO, ma i contenuti sono esattamente gli stessi. – Rowan

risposta

4

ci sono un paio di strumenti per la manipolazione PDF, anche se sembrano propensione generazione, piuttosto che l'analisi:

Pandoc è una grande libreria cross-markup, ma non supporta l'analisi PDF (supporta la generazione di PDF da una varietà di formati).

C'è anche:

Non sono sicuro che abbiamo un buon strumento di analisi ancora.

2

Anche come esercizio di apprendimento, ho avviato una libreria di analisi PDF in Haskell, ma è incompleta e ha languido un po 'per la mancanza di attenzione. Sarei felice di condividerlo con te e mi piacerebbe feedback, miglioramenti, ecc. Non è attualmente ospitato su hackage, ma se sei interessato a lavorare con un'implementazione incompleta, fammelo sapere e chiederò ad alcuni colleghi per un consiglio su come arrivare lì.

+0

Sono troppo giovane per una tale ricerca. Ma grazie comunque, terrò questo a mente per il futuro. – artemave

+0

Sarei felice di lavorare con voi su di esso.Il suo stato attuale è che prende un file PDF e produce una rappresentazione simile a AST, che può essere manipolata. Ho anche una stampante AST carina che produce un file PDF valido. –

+1

Inoltre, non riesco a commentare la "waah, le specifiche ISO PDF sono costose", ma ho trovato i documenti gratuiti qui: http://www.adobe.com/devnet/pdf/ per essere sufficiente per il mio Necessità di analisi PDF. –

0

Libreria pdf-toolbox. Il supporto per la generazione di file PDF è low level, ma abbastanza potente per il tuo compito.

Here è un esempio di come modificare il titolo di un file PDF esistente utilizzando la funzione di aggiornamento incrementale.