2010-06-02 15 views
53

Fino a questo punto, non avevo trovato una soluzione che avrebbe funzionato bene per estrarre il testo da un file pdf in Objective C per l'utilizzo su iPhone. Ho trovato un codice C standard e l'ho modificato per funzionare, e ho pensato di fornirlo qui, visto che fino a questo punto ho usato lo stackoverflow un bel po ', ma non l'ho mai restituito. Puoi scaricarlo qui: https://github.com/zachron/pdfiphoneEstrazione del testo pdf nell'obiettivo C

Prende come input il percorso del file pdf e restituisce una stringa del testo nel pdf. Non ho scritto la maggior parte di questo, ma l'ho modificato in modo che funzionasse con iPhone e Objective C. È necessario includere la libreria Zlib nel progetto (libz.dylib su iPhone) se qualcuno lo prende e lo fa è più bello, sono bei tempi.

+0

Questa sarebbe una buona risposta a questa domanda: http://stackoverflow.com/questions/2362393/reading-pdf-files-as-string-through-iphone-application – Chetan

+13

Riformulare che come una domanda e invia invece la tua soluzione come risposta. –

+0

può essere questo aiuterebbe .... http://stackoverflow.com/questions/2362393/reading-pdf-files-as-string-through-iphone-application –

risposta

5

Ricordare che questo funzionerà solo per l'estrazione di testo archiviato come tale nel PDF. Non eseguirà la scansione di PDF da OCR. Se vuoi farlo, c'è la possibilità di utilizzare Tesseract, il robusto motore OCR di Google e FOSS. È compiles on the iPhone: vedere Tesseract-iPhone-Demo di Nolan Brown per un esempio funzionante. La libreria di immagini ImageMagic also compiles on the iPhone, e ti permetterà di convertire PDF in TIFF, che Tesseract accetta come input.