In parole povere, ho bisogno di estrarre il testo da più PDF (molto spesso) per analizzare i contenuti prima di incollarli in un database SQL.Estrazione di testo da PDF in C#
Ho trovato alcune librerie C# abbastanza carine che funzionano (la migliore utilizza iTextSharp), ma ci sono mille errori di formattazione e alcuni caratteri sono criptati e un sacco di volte ci sono spazi ('') OVUNQUE - All'interno di parole, tra ogni lettera, enormi blocchi di essi che occupano più righe, tutto sembra un po 'casuale.
C'è un modo semplice per farlo che sto trascurando completamente (molto probabilmente!) O è un compito un po 'arduo che comporta la conversione dei valori del byte estratto in lettere in modo affidabile?
Cheers,
Duncan
Vedi anche http://stackoverflow.com/q/10982156/292060 – goodeye