Qualcuno ha qualche codice di esempio che illustra come utilizzare Python's Beautiful Soup per rimuovere tutti i tag html, ad eccezione di alcuni, da una stringa di testo?Utilizzo di Beautiful Soup per rimuovere i tag html da una stringa
Voglio mettere a nudo tutti i javascript e tag html tutto, tranne:
<a></a>
<b></b>
<i></i>
E anche cose come:
<a onclick=""></a>
Grazie per l'aiuto - non ho potuto trovare molto su internet per questo scopo.
Grazie - un modo per rimuovere l'onclick = "" – ensnare
add 'tag.attrs = [ ] 'prima di stampare per rimuovere tutti gli attributi. Se hai bisogno di più controllo, tag.attrs è solo una lista di coppie (nome, valore) con cui puoi giocare quando ne hai bisogno. – Spacedman
Ehi, questo è stato davvero utile, grazie mille. – ensnare