2015-04-09 21 views
6

Sto cercando di eseguire l'estrazione di testo in batch dai file PDF. Ho provato molte librerie e Adobe Reader mi sembra l'estrattore di testo più preciso per me.Come utilizzare AcroTextExtractor.exe a livello di programmazione?

Ho notato un file AcroTextExtractor.exe nella cartella in cui è installato Adobe Reader. Sembra che il gioco sia promettente e googling su di loro dimostra che questo file fa parte della routine di conversione da PDF a testo.

Come chiamare questo file dalla riga di comando per eseguire l'estrazione del testo?

risposta

1

Ho voluto usare anche quello per lo stesso scenario.

Ho fatto un esperimento per vedere se potevo esaminare la riga di comando che potrebbe essere visualizzata su un lancio di AcroTextExtractor.exe.

Ho preso un grande PDF e l'ho aperto in Adobe Acrobat Reader DC versione 2018.009.20050. L'ho quindi salvato come testo (File | Salva come altro | Testo), e mentre Reader stava generando il file di testo (con successo) ho controllato tutti i processi in esecuzione in Task Manager, Process Explorer sysinternals e con WMI in Powershell.

Purtroppo non sono riuscito a trovare un processo avviato con percorso che includa AcroTextExtractor.exe; quindi non ho potuto afferrare la riga di comando.

Potrebbe essere un'aringa rossa.

+0

Già provato. Sembra che l'eseguibile non sia utilizzato dalla GUI, infatti se li elimini, puoi comunque salvare come testo dalla GUI senza errori. –

Problemi correlati