2009-09-28 9 views
6

Ho una serie di immagini su cui eseguo un'applicazione OCR. Questo processo genera un file XML con offset di caratteri. Poi converto le immagini in PDF usando Acrobat 9. Ora, vorrei aggiungere le informazioni del file XML come un livello di testo invisibile nel PDF per ottenere un PDF ricercabile. C'è un modo semplice e gratuito?Come incorporare OCR esterno nel PDF esistente?

Alcuni dettagli:

  • non vogliono utilizzare la funzionalità OCR di Acrobat;

  • I risultati del processo OCR in un file XML che contiene elementi come:

    <line baseline="1049" l="158" t="1012" r="1196" b="1060">This is a sample line of text from an image</line>

Aggiornamento: può essere possibile fare quello che voglio in un modo diverso. Supponiamo che ci sia già un file PDF generato da un set di immagini e che già contiene testo OCR. Sarebbe possibile (magari programmaticamente) accedere solo all'immagine di ogni pagina, elaborarla (ad es. Convertirla in monocromia) e salvarla nuovamente nel file PDF? Se sì, allora il testo OCR non andrebbe perso.

[Devo mettere questo aggiornamento in una domanda separata?]

+0

Si possono trovare [hocr2pdf] (http://www.exactcode.com/site/open_source/exactimage/hocr2pdf/) utile –

risposta

1

Per la domanda successiva sull'elaborazione di file PDF senza perdere i livelli nascosti: credo che lo sia Ghostscript. Ad esempio, il seguente comando dovrebbe convertire un PDF in scala di grigi:

gs -q -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -dColorConversionStrategy=/Gray -dProcessColorModel=/DeviceGray -sOutputFile=output.pdf input.pdf 
+0

Bello, ha funzionato. Ma l'output non è pulito come volevo. Se ImageMagick può convertire il PDF senza perdere il livello di testo, vorrei elaborare ogni pagina con qualcosa come: convert \\ (-white-threshold 50% \\) -monochrome ... Forse c'è un modo di raccontare IM come usare GS, come ha detto DaveParillo. Lo controllerò più tardi. – kepler

-1

Se tutto quello che vogliamo fare è convertire un PDF esistente in scala di grigi, provare Imagemagick:

convert foo.pdf -colorspace Gray -compress zip gray.pdf 

non lo faccio pensa che questo cambierà altri attributi nel tuo pdf.

+0

Questo non lo fa sembra mantenere il livello di testo nascosto nel PDF. (Provato con ImageMagick 6.4.5.) –

+0

dispari, perché imagemagick utilizza ghostscript per fare la sua conversione dell'immagine ... – DaveParillo

+0

Ho anche provato, e ho anche perso il livello di testo. Ho usato anche ImageMagick 6.4.5. – kepler

Problemi correlati