2010-07-28 31 views
5

Utilizzo di pdfbox per estrarre informazioni di testo da PDF. Ho analizzato con successo tutte le proprietà di testo come fontname, fontface, dimensione, posizione, ecc.Java - PDFBox - Estrazione del testo

PROBLEMA: Sto usando pdfbox1.2.1 (versione più recente). GetCharacter() nella classe TextPosition restituisce la stringa completa tranne l'ultimo carattere. L'ultimo carattere viene analizzato come una stringa separata.

Es: "Come stai" viene analizzato come "Come stai" e "u" (2 stringhe separate).

io non voglio che succeda quel modo ..

Qualcuno ha incontrato questo venire? .. sto facendo qualcosa di sbagliato ?? .. In attesa di risposta ..

Grazie e saluti, Magggi

+0

Non penso che tu stia usando male. C'è un PDF con cui lavoro che restituisce ** ogni carattere ** come separato 'String'. Sfortunatamente, non ho davvero molte soluzioni per te. Sarei curioso di sapere anche la risposta. –

+0

Sono in grado di estrarre righe di testo da PDF. Ma all'interno di ogni riga, si verifica la suddivisione come sopra menzionata. – Magggi

risposta

3

Questo problema è risolto.

il seguente codice nel processEncodedText(byte[] string) in PDFStreamEngine.java

if(spacingText == 0 && (i + codeLength) < (string.length - 1)) 
{ 
    continue; 
} 

dovrebbe essere cambiata a

if(spacingText == 0 && (i + codeLength) < (string.length)) 
{ 
    continue; 
} 

saluti, Maggi