Sto usando Apache PDFBox per leggere un documento PDF che ha una gerarchia definita dai segnalibri. La gerarchia è in una forma ad albero con contenuti solo a livello foglia.Estrazione di testo tra due segnalibri utilizzando Apache PdfBox
Estrazione del testo tra due segnalibri livello foglia utilizzando il seguente codice:
Stripper.setStartBookmark(),
Stripper.setEndBookmark(),
Stripper.writeText()),
Restituisce il testo in tutta la pagina invece. In breve, il mio problema è simile a quello menzionato in this thread.
C'è un modo per estrarre il contenuto tra due segnalibri?
In tal caso, quale dovrebbe essere il cambiamento nel mio codice?
@Shiram -Ho stessa domanda. per favore pubblica la risposta se lo hai già capito – Kasun
Hai trovato una soluzione? In caso contrario, si dispone di un esempio del segnalibro (ad esempio, in formato XML). – maffo