C'è un modo per estrarre il testo e le note evidenziati da un file PDF a livello di programmazione? Qualsiasi lingua è benvenuta Ho trovato diverse librerie con Python, Java e anche PHP, ma nessuno di loro fa il lavoro.Come estrarre le note e le parti evidenziate dai file PDF
Non so se è possibile o no. Sono anche consapevole del fatto che alcuni programmi creano file aggiuntivi per conservare questo tipo di informazioni (se non sbaglio, Kindle genera un altro file.) Ma attualmente sono fuori portata.
Grazie per la risposta. Ho anche trovato un altro modo per risolvere questo problema un po 'troppo a lungo :) Le note appiccicose create da Adobe Reader sono facili da analizzare perché le note adesive vengono aggiunte ai file PDF con informazioni sul contenuto e sulla posizione, ma per le evidenziazioni c'è solo un rettangolo infromation I dovrebbe estrarre il testo in base alla posizione. Quindi devo scrivere un codice per questo. Come libreria di base posso usare PDFMiner, che fornisce informazioni sulle posizioni dei testi. – user1183057