Estrazione nodo di testo all'interno di un tag che ha un elemento figlio in beautifulsoup4

Il codice HTML che sto analisi e la raschiatura ha il seguente codice:Estrazione nodo di testo all'interno di un tag che ha un elemento figlio in beautifulsoup4

<li> <span> 929</span> Serve Returned </li>

Come posso estrarre solo il nodo di testo di <li>, "servire restituito "in questo caso con Beautifulsoup?

.string non funziona poiché <li> ha un elemento figlio e .text restituisce il testo all'interno di <span>.

fonte

2015-04-22 user3562812

ho usato il metodo str.replace per questo:

>>> li = soup.find('li') # or however you need to drill down to the <li> tag 
>>> mytext = li.text.replace(li.find('span').text, "") 
>>> print mytext 
Serve Returned

fonte

2015-04-22 20:31:37 Totem

import bs4 
html = r"<li> <span> 929</span> Serve Returned </li>" 
soup = bs4.BeautifulSoup(html) 
print soup.li.findAll(text=True, recursive=False)

Questo dà:

[u' ', u' Serve Returned ']

Il primo elemento è il "testo" che hai prima campata. Questo metodo potrebbe aiutarti a trovare il testo prima e dopo (e in mezzo) qualsiasi elemento figlio.

fonte

2015-04-22 20:34:42 Hooked

Estrazione nodo di testo all'interno di un tag che ha un elemento figlio in beautifulsoup4

risposta

Problemi correlati