2012-11-26 23 views
6

So come leggere il testo di un intero file pdf usinf PDFBox usando PDFTextStripper.getText(PDDocument).legge il testo da una particolare pagina usando PDFBox

Ho anche un esempio su come ottenere un riferimento ad un oggetto in una particolare pagina usando PDDocumentCatalog.getAllPages().get(i).

Come posso ottenere il testo di una sola pagina utilizzando PDFBox poiché non vedo alcun metodo di questo tipo nella classe PDPage?

risposta

16

È possibile impostare i parametri sulla PDFTextStripper per leggere le pagine particolari:

PDDocument doc; // document 
int i; // page no. 

PDFTextStripper reader = new PDFTextStripper(); 
reader.setStartPage(i); 
reader.setEndPage(i); 
String pageText = reader.getText(doc); 

Per quanto io sappia, PDPage è più abituato di rappresentare una pagina sullo schermo, piuttosto che l'estrazione di testo. Come tale, non consiglierei di usarlo per estrarre il testo.

Problemi correlati