Come incorporare OCR esterno nel PDF esistente?

Ho una serie di immagini su cui eseguo un'applicazione OCR. Questo processo genera un file XML con offset di caratteri. Poi converto le immagini in PDF usando Acrobat 9. Ora, vorrei aggiungere le informazioni del file XML come un livello di testo invisibile nel PDF per ottenere un PDF ricercabile. C'è un modo semplice e gratuito?Come incorporare OCR esterno nel PDF esistente?

Alcuni dettagli:

non vogliono utilizzare la funzionalità OCR di Acrobat;
I risultati del processo OCR in un file XML che contiene elementi come:

<line baseline="1049" l="158" t="1012" r="1196" b="1060">This is a sample line of text from an image</line>

Aggiornamento: può essere possibile fare quello che voglio in un modo diverso. Supponiamo che ci sia già un file PDF generato da un set di immagini e che già contiene testo OCR. Sarebbe possibile (magari programmaticamente) accedere solo all'immagine di ogni pagina, elaborarla (ad es. Convertirla in monocromia) e salvarla nuovamente nel file PDF? Se sì, allora il testo OCR non andrebbe perso.

[Devo mettere questo aggiornamento in una domanda separata?]

fonte

2009-09-28 kepler

Si possono trovare [hocr2pdf] (http://www.exactcode.com/site/open_source/exactimage/hocr2pdf/) utile –

Per la domanda successiva sull'elaborazione di file PDF senza perdere i livelli nascosti: credo che lo sia Ghostscript. Ad esempio, il seguente comando dovrebbe convertire un PDF in scala di grigi:

gs -q -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -dColorConversionStrategy=/Gray -dProcessColorModel=/DeviceGray -sOutputFile=output.pdf input.pdf

fonte

2009-10-05 22:28:48

Bello, ha funzionato. Ma l'output non è pulito come volevo. Se ImageMagick può convertire il PDF senza perdere il livello di testo, vorrei elaborare ogni pagina con qualcosa come: convert \\ (-white-threshold 50% \\) -monochrome ... Forse c'è un modo di raccontare IM come usare GS, come ha detto DaveParillo. Lo controllerò più tardi. – kepler

-1

Se tutto quello che vogliamo fare è convertire un PDF esistente in scala di grigi, provare Imagemagick:

convert foo.pdf -colorspace Gray -compress zip gray.pdf

non lo faccio pensa che questo cambierà altri attributi nel tuo pdf.

fonte

2009-10-01 16:15:14 DaveParillo

Questo non lo fa sembra mantenere il livello di testo nascosto nel PDF. (Provato con ImageMagick 6.4.5.) –

dispari, perché imagemagick utilizza ghostscript per fare la sua conversione dell'immagine ... – DaveParillo

Ho anche provato, e ho anche perso il livello di testo. Ho usato anche ImageMagick 6.4.5. – kepler

Come incorporare OCR esterno nel PDF esistente?

risposta

Problemi correlati