Desidero una funzione python che prende un pdf e restituisce un elenco del testo delle annotazioni note nel documento. Ho guardato Python-poppler (https://code.launchpad.net/~poppler-python/poppler-python/trunk) ma non riesco a capire come ottenerlo per darmi qualcosa di utile.Annotazioni di analisi da un pdf
Ho trovato il metodo get_annot_mapping
e ho modificato il programma demo fornito per chiamarlo tramite self.current_page.get_annot_mapping()
, ma non ho idea di cosa fare con un oggetto AnnotMapping. Sembra non essere completamente implementato, fornendo solo il metodo di copia.
Se ci sono altre librerie che forniscono questa funzione, va bene lo stesso.
Mentre potrebbe essere utile se volessi estrarre tutto il testo da un pdf, voglio solo estrarre le annotazioni. Il motivo per cui ho parlato di poppler è perché fornisce questa capacità piuttosto facilmente (http://cgit.freedesktop.org/poppler/poppler/tree/glib/poppler-annot.h). Ma, volevo usare python. Ho trovato il progetto di binding Python-Poppler, ma non sembra fornire pieno accesso alle annotazioni. La mia domanda si riduce a "Sto sbagliando o la libreria è incompleta?" e "Ci sono altri che forniscono la stessa funzionalità?" – davidb