Q

Il modo migliore per convertire l'HTML in testo semplice usando Python

2009-11-03 8 views 9 likes

9

Sto lavorando a un progetto che prevede la conversione di una grande quantità di contenuto HTML in plain/text. Ho un modulo personalizzato che fa il lavoro OK, ma mi chiedo se ci sono alcuni strumenti standard per portare a termine il lavoro.Il modo migliore per convertire l'HTML in testo semplice usando Python

2009-11-03 Chip Tol

A

risposta

10

Html2Text sembra essere una buona opzione

2009-11-03 15:37:28

+0

questo funziona molto bene –

+0

Il sito non è più accessibile da quando Aaron, l'autore non è più. –

+1

ma il codice può essere trovato su https://github.com/aaronsw/html2text –

4

Ecco una libreria Python che fa parsing del codice HTML:

lxml.html

BeautifulSoup è un'altra opzione.

2009-11-03 15:39:30 tcarobruce

+2

Per salvare gli altri un po 'di tempo in circolo da Google a SO, ecco un Q & A che descrive che Beautiful Soup non è più mantenuta: [WebScraping with BeautifulSoup o LXML.HTML] (http://stackoverflow.com/questions/5493514/webscraping-with-beautifulsoup-or-lxml-html). – sage

+1

Bella zuppa sembra essere mantenuta ora penso. – contrebis

Problemi correlati