2012-03-06 12 views
6

Sto usando Apache PDFBox per leggere un documento PDF che ha una gerarchia definita dai segnalibri. La gerarchia è in una forma ad albero con contenuti solo a livello foglia.Estrazione di testo tra due segnalibri utilizzando Apache PdfBox

Estrazione del testo tra due segnalibri livello foglia utilizzando il seguente codice:

Stripper.setStartBookmark(), 
Stripper.setEndBookmark(), 
Stripper.writeText()), 

Restituisce il testo in tutta la pagina invece. In breve, il mio problema è simile a quello menzionato in this thread.

C'è un modo per estrarre il contenuto tra due segnalibri?

In tal caso, quale dovrebbe essere il cambiamento nel mio codice?

+0

@Shiram -Ho stessa domanda. per favore pubblica la risposta se lo hai già capito – Kasun

+0

Hai trovato una soluzione? In caso contrario, si dispone di un esempio del segnalibro (ad esempio, in formato XML). – maffo

risposta

0

Immagino che il tuo segnalibro non contenga i dati corretti.

suona come il segnalibro che si sta utilizzando è rivolto solo alla pagina di in cui il vostro inizio del contenuto, piuttosto che una posizione sulla pagina.

Ecco un esempio di un segnalibro che contiene dati di posizione:

<Title Action="GoTo" Style="bold" Page="2 FitH 518"> 
Title Name 
</Title> 
+0

In PDFBox, i segnalibri vengono risolti in una PDPageXYZDestination, a seguito di azioni GoTo specifiche dei segnalibri. Quindi, in effetti puntano a una posizione assoluta nella pagina, che viene verificata nel mio visualizzatore PDF, in cui il clic su un segnalibro scorre direttamente alla sezione. – nickb

Problemi correlati