Ho una serie di immagini su cui eseguo un'applicazione OCR. Questo processo genera un file XML con offset di caratteri. Poi converto le immagini in PDF usando Acrobat 9. Ora, vorrei aggiungere le informazioni del file XML come un livello di testo invisibile nel PDF per ottenere un PDF ricercabile. C'è un modo semplice e gratuito?Come incorporare OCR esterno nel PDF esistente?
Alcuni dettagli:
non vogliono utilizzare la funzionalità OCR di Acrobat;
I risultati del processo OCR in un file XML che contiene elementi come:
<line baseline="1049" l="158" t="1012" r="1196" b="1060">This is a sample line of text from an image</line>
Aggiornamento: può essere possibile fare quello che voglio in un modo diverso. Supponiamo che ci sia già un file PDF generato da un set di immagini e che già contiene testo OCR. Sarebbe possibile (magari programmaticamente) accedere solo all'immagine di ogni pagina, elaborarla (ad es. Convertirla in monocromia) e salvarla nuovamente nel file PDF? Se sì, allora il testo OCR non andrebbe perso.
[Devo mettere questo aggiornamento in una domanda separata?]
Si possono trovare [hocr2pdf] (http://www.exactcode.com/site/open_source/exactimage/hocr2pdf/) utile –