Java - PDFBox - Estrazione del testo

Utilizzo di pdfbox per estrarre informazioni di testo da PDF. Ho analizzato con successo tutte le proprietà di testo come fontname, fontface, dimensione, posizione, ecc.Java - PDFBox - Estrazione del testo

PROBLEMA: Sto usando pdfbox1.2.1 (versione più recente). GetCharacter() nella classe TextPosition restituisce la stringa completa tranne l'ultimo carattere. L'ultimo carattere viene analizzato come una stringa separata.

Es: "Come stai" viene analizzato come "Come stai" e "u" (2 stringhe separate).

io non voglio che succeda quel modo ..

Qualcuno ha incontrato questo venire? .. sto facendo qualcosa di sbagliato ?? .. In attesa di risposta ..

Grazie e saluti, Magggi

fonte

2010-07-28 Magggi

Non penso che tu stia usando male. C'è un PDF con cui lavoro che restituisce ** ogni carattere ** come separato 'String'. Sfortunatamente, non ho davvero molte soluzioni per te. Sarei curioso di sapere anche la risposta. –

Sono in grado di estrarre righe di testo da PDF. Ma all'interno di ogni riga, si verifica la suddivisione come sopra menzionata. – Magggi

Questo problema è risolto.

il seguente codice nel processEncodedText(byte[] string) in PDFStreamEngine.java

if(spacingText == 0 && (i + codeLength) < (string.length - 1)) 
{ 
    continue; 
}

dovrebbe essere cambiata a

if(spacingText == 0 && (i + codeLength) < (string.length)) 
{ 
    continue; 
}

saluti, Maggi

fonte

2010-08-30 12:09:29 Magggi

Sì. Questo problema è risolto da pdfbox.
Prova l'ultima versione di pdfbox. L'ultima versione può essere scaricata da http://pdfbox.apache.org/download.html

fonte

2012-06-30 05:17:54 Neeraj

Java - PDFBox - Estrazione del testo

risposta

Problemi correlati