Sto lavorando a un progetto che prevede la conversione di una grande quantità di contenuto HTML in plain/text. Ho un modulo personalizzato che fa il lavoro OK, ma mi chiedo se ci sono alcuni strumenti standard per portare a termine il lavoro.Il modo migliore per convertire l'HTML in testo semplice usando Python
risposta
Html2Text sembra essere una buona opzione
Ecco una libreria Python che fa parsing del codice HTML:
BeautifulSoup è un'altra opzione.
Per salvare gli altri un po 'di tempo in circolo da Google a SO, ecco un Q & A che descrive che Beautiful Soup non è più mantenuta: [WebScraping with BeautifulSoup o LXML.HTML] (http://stackoverflow.com/questions/5493514/webscraping-with-beautifulsoup-or-lxml-html). – sage
Bella zuppa sembra essere mantenuta ora penso. – contrebis
- 1. Delphi: il modo migliore per convertire rtf in testo
- 2. Il modo migliore per convertire la pronuncia in pronuncia
- 3. Il modo più semplice per convertire in booleano
- 4. Il modo migliore per convertire std :: wstring in QString
- 5. Il modo migliore per 'ripulire' testo HTML
- 6. il modo migliore per convertire DataFrame in Matrix in RCpp
- 7. C'è un modo semplice per convertire il testo in HTML in JavaScript?
- 8. Qual è il modo migliore per convertire enum in stringa?
- 9. Qual è il modo migliore per convertire String in ByteString
- 10. il modo migliore per convertire la raccolta in stringa
- 11. Il modo migliore per convertire INT in BIT
- 12. Come convertire reStructuredText in testo semplice
- 13. Qual è il modo più semplice per convertire una stringa xhtml in PDF usando Flying Saucer?
- 14. modo semplice per convertire una stringa in un dizionario
- 15. Python: il modo migliore/efficace per trovare un elenco di parole in un testo?
- 16. Un modo migliore per convertire la lista in vettoriale?
- 17. Un modo semplice per convertire il codice c nell'assemblaggio x86?
- 18. Qual è un modo migliore per convertire una semplice app sinatra in pagine html statiche?
- 19. Come convertire HTML in testo usando jQuery?
- 20. Esiste un modo semplice per convertire i criteri in HQL?
- 21. Il modo migliore per convertire tra [Char] e [Word8]?
- 22. Il modo più semplice per rm -rf in Python
- 23. Il modo più semplice per risolvere equazioni matematiche in Python
- 24. Qual è il modo più semplice per creare un iterabile vuoto usando yield in Python?
- 25. Il modo migliore per filtrare un dizionario in Python
- 26. Il modo migliore per ordinare i record 1M in Python
- 27. Il modo migliore per sostituire \ x00 nelle liste python?
- 28. modo semplice per convertire l'array di byte in JSONArray
- 29. Semplice modo per simulare una rete lenta in python
- 30. Alla ricerca di un modo semplice per allineare il testo
questo funziona molto bene –
Il sito non è più accessibile da quando Aaron, l'autore non è più. –
ma il codice può essere trovato su https://github.com/aaronsw/html2text –