stiamo migrando da un sistema contenuto in un altro e hanno tonnellate di HTML dove ci sono le linee, per esempio, in questo modo:Rimozione di nodi vuoti da HTML
<p style="text-align: justify;"><i> </i></p>
Cerco un modo per mettere a nudo HTML con Python dove non c'è output di testo sullo schermo. Quindi una linea simile a questa sarebbe stata spogliata.
E, questo è solo uno dei MOLTI esempi di linee in cui non è presente l'output di testo. Quindi, avrei bisogno di trovarli tutti per spogliarli. Non devo preoccuparmi di immagini, film, ecc., Poiché solo il testo era possibile nel nostro vecchio sistema di gestione dei contenuti.
BTW, la stragrande maggioranza delle linee inizia con un tag p
o con un tag div
(ignorando gli spazi bianchi iniziali).
Hmm. Che dire dei tag strutturali vuoti? (divs per l'utilizzo da parte di JavaScript, ad esempio) – Cameron
Penso che avrai bisogno di un parser html per quello ... – greg0ire