Python/BeautifulSoup - come rimuovere tutti i tag da un elemento?

Come posso semplicemente rimuovere tutti i tag da un elemento che trovo in BeautifulSoup?Python/BeautifulSoup - come rimuovere tutti i tag da un elemento?

fonte

2013-04-25 Daniele B

Supponendo che si desidera mettere a nudo i tag, ma mantenere il contenuto, vedere la risposta accettata a questa domanda: Remove a tag using BeautifulSoup but keep its contents

fonte

2013-04-25 04:31:04 Shaun

sembra che questo è il modo per farlo! così semplice come sembra

con questa linea si stanno unendo insieme i tutte le parti di testo all'interno dell'elemento corrente

''.join(htmlelement.find(text=True))

fonte

2013-04-25 04:46:12

È possibile utilizzare il metodo decompongono in BS4:

soup = bs4.BeautifulSoup('<body><a href="http://example.com/">I linked to <i>example.com</i></a></body>') 

for a in soup.find('a').children: 
    if isinstance(a,bs4.element.Tag): 
     a.decompose() 

print soup 

Out: <html><body><a href="http://example.com/">I linked to </a></body></html>

fonte

2013-10-17 22:37:41 danblack

perché non ha una risposta Ho visto qualcosa sul metodo unwrap? O, ancora più semplice, il get_text metodo

http://www.crummy.com/software/BeautifulSoup/bs4/doc/#unwrap http://www.crummy.com/software/BeautifulSoup/bs4/doc/#get-text

fonte

2014-04-29 00:40:34 Bobby

Con BeautifulStoneSoup andato in bs4, è ancora più semplice in python3

from bs4 import BeautifulSoup 

soup = BeautifulSoup(html) 
text = soup.get_text() 
print(text)

fonte

2015-01-27 02:47:02 shawnl

E ' meglio usare 'get_text()' invece di 'getText()'. – SparkAndShine

Perché è quello? Potrebbe essere il caso, ma sarebbe utile capire perché. –

+11

getText() è la sintassi bs3 e non conforme a pep8. Probabilmente sarà deprecato. –

Usa get_text(), restituisce tutto il testo in un documento o sotto un tag, come una singola stringa Unicode.

Per esempio, rimuovere tutti i diversi tag di script dal seguente testo:

<td><a href="http://www.irit.fr/SC">Signal et Communication</a> 
<br/><a href="http://www.irit.fr/IRT">Ingénierie Réseaux et Télécommunications</a> 
</td>

Il risultato atteso è:

Signal et Communication 
Ingénierie Réseaux et Télécommunications

Ecco il codice sorgente:

#!/usr/bin/env python3 
from bs4 import BeautifulSoup 

text = ''' 
<td><a href="http://www.irit.fr/SC">Signal et Communication</a> 
<br/><a href="http://www.irit.fr/IRT">Ingénierie Réseaux et Télécommunications</a> 
</td> 
''' 
soup = BeautifulSoup(text) 

print(soup.get_text())

fonte

2015-07-20 16:37:08 SparkAndShine

Python/BeautifulSoup - come rimuovere tutti i tag da un elemento?

risposta

Problemi correlati