Non ho alcuna familiarità con le specifiche PDF. Mi stavo chiedendo se sia possibile manipolare direttamente un file PDF in modo che alcuni blocchi di testo che ho identificato come importanti siano evidenziati nei colori della mia scelta. La lingua scelta sarebbe pitone.Cambia colore a livello di codice del testo in PDF
risposta
È possibile, ma non necessariamente facile, perché il formato PDF è così ricco. È possibile trovare un documento che lo descrive in dettaglio here. Il primo esempio elementare che dà su come testo del display file PDF è:
BT
/F13 12 Tf
288 720 Td
(ABC) Tj
ET
BT e ET sono comandi per iniziare e terminare un oggetto di testo; Tf è un comando per usare la risorsa font esterna F13 (che capita di essere Helvetica) alla dimensione 12; Td è un comando per posizionare il cursore sulle coordinate date; Tj è un comando per scrivere i glifi per la stringa precedente. Il sapore è in qualche modo "notazione di smussatura inversa", ovvero, e in effetti abbastanza vicino al sapore di Postscript, uno degli altri grandi contributi di Adobe alla composizione.
Il problema è che nelle specifiche PDF non c'è nulla che dice che il testo che "sembra" come appartiene insieme alla pagina come visualizzata deve effettivamente "essere" insieme; dato che le coordinate precise possono sempre essere fornite, se il PDF è generato da un sofisticato sistema di layout tipografico, potrebbe posizionare il testo in modo preciso, carattere per carattere, per coordinate. Ricostruire il testo in forma di parole e frasi non è quindi necessariamente facile - è quasi tanto difficile quanto il riconoscimento ottico del testo, tranne per il fatto che i caratteri vengono assegnati con precisione (beh ... quasi ... alcune presunte "immagini" potrebbero effettivamente apparire come caratteri ... ;-).
pyPdf è una libreria Python pure molto semplice che è un buon punto di partenza per giocare con i file PDF. La sua funzione di "estrazione del testo" è piuttosto elementare e non fa altro che concatenare gli argomenti di alcuni comandi di disegno del testo; vedrai che è sufficiente su alcuni documenti, ed è abbastanza inutilizzabile per gli altri, ma almeno è un inizio. Come distribuito, pyPdf non fa quasi nulla con i colori, ma con qualche hacking che potrebbe essere risolto.
reportlab La potente libreria Python è interamente incentrata sulla generazione di nuovi PDF, non sull'interpretazione o la modifica di quelli esistenti. All'estremo opposto, la pura libreria Python pdfminer si concentra interamente sull'analisi dei file PDF; fa un po 'di cluster per cercare di ricostruire il testo nei casi in cui le librerie più semplici vengono messe in secondo piano.
Non so di una libreria esistente che esegue i compiti di trasformazione che desideri, ma dovrebbe essere possibile combinare alcuni di questi esistenti per ottenere la maggior parte di essa ... buona fortuna!
Evidenziare è possibile nel file pdf utilizzando annotazioni PDF ma farlo in modo nativo non è un lavoro facile. Se una qualsiasi delle citate librerie fornisce tali servizi è qualcosa che si può cercare.
- 1. Cambia il colore del testo in MoreNavigationController
- 2. Cambia il colore del testo in android.R.layout.simple_list_item_2
- 3. Cambia il colore del testo di UISegmentedControl
- 4. Cambia colore del testo in base al colore di sfondo
- 5. Cambia colore del testo senza memoria colore in C64/Assembly
- 6. FPDF: cambia il colore del testo all'interno di una cella?
- 7. Cambia Holo filatore colore del testo
- 8. Come si modifica a livello di codice il colore del testo del menu di ActionBar?
- 9. Cambia colore del grafico ad area a livello di codice alto
- 10. Imagebutton cambia a livello di codice?
- 11. Cambia il colore del testo TimePicker
- 12. NVD3 Cambia il colore del testo dell'etichetta
- 13. Cambia il colore del cursore del testo (caret) in Cocoa?
- 14. Esempio di codice per creare pdf a livello di codice
- 15. Modifica del testo di UIButton a livello di codice rapido
- 16. Cambia il colore di una certa parte del testo VB6?
- 17. Converti a livello di codice Word (docx) in PDF
- 18. Cambia il colore di sfondo di ActionBarSherlock a livello di codice
- 19. cambia il colore del testo a seconda dell'immagine/colore di sfondo
- 20. Interface Builder cambia il bug del colore del testo?
- 21. Android - PreferenceActivity - Cambia colore del testo di riepilogo di CheckBoxPreference
- 22. ImageMagick cambia colore durante la conversione di PDF in immagini
- 23. Barra di azione Sherlock cambia il colore del testo
- 24. cambia colore blocco codice in knitr/markdown
- 25. Come si cambia il colore del testo in un UITextView?
- 26. Cambia il colore del testo della casella di gruppo?
- 27. Cambia il colore del testo della barra di ricerca ios
- 28. Cambia colore Sommario Preferenze elemento di testo in Android 4
- 29. Il colore del testo dell'azione della barra snack non cambia
- 30. cambia colore pulsante testo quando premuto
Ho provato a leggere un pdf, ma è un personaggio e un flusso, posso riconoscere PDF ed EOF e ci sono molti caratteri speciali. c'è qualche codifica specifica? Potresti per favore condividere un semplice codice per la ricerca di BT e ET, ho avuto la stessa domanda su http://stackoverflow.com/questions/12982188/how-to-access-lines-in-a-pdf-page-programmatically -e dai loro-diversi-colori, grazie – Shan