Utilizzo di pdfbox per estrarre informazioni di testo da PDF. Ho analizzato con successo tutte le proprietà di testo come fontname, fontface, dimensione, posizione, ecc.Java - PDFBox - Estrazione del testo
PROBLEMA: Sto usando pdfbox1.2.1 (versione più recente). GetCharacter() nella classe TextPosition restituisce la stringa completa tranne l'ultimo carattere. L'ultimo carattere viene analizzato come una stringa separata.
Es: "Come stai" viene analizzato come "Come stai" e "u" (2 stringhe separate).
io non voglio che succeda quel modo ..
Qualcuno ha incontrato questo venire? .. sto facendo qualcosa di sbagliato ?? .. In attesa di risposta ..
Grazie e saluti, Magggi
Non penso che tu stia usando male. C'è un PDF con cui lavoro che restituisce ** ogni carattere ** come separato 'String'. Sfortunatamente, non ho davvero molte soluzioni per te. Sarei curioso di sapere anche la risposta. –
Sono in grado di estrarre righe di testo da PDF. Ma all'interno di ogni riga, si verifica la suddivisione come sopra menzionata. – Magggi