2012-02-01 10 views
5

ho un i dati della tabella come questa:BeautifulSoup restituzione dei dati come Nessuno che include <br> tag

<table class="tablesorter" id="dea"> 
<thead> 
<tr> 
<th class="header ">Name</th> 
<th class="header">City</th> 
<th class="">Address</th> 
<th class="">Phone Nos</th> 
<th class="">Email</th> 
<th class="">Fax</th> 
</tr> 
</thead> 
<tbody> 

<tr class="info"> 
<td style="font:bold 12px Tahoma; color:#1f2c48;">Audi California</td> 
<td>&nbsp;California&nbsp;</td> 
<td align="left"> 
A?85, bay Area, Phase 1, <br> 
California<br> 
California 
- 6554655 
</td> 
<td align="right"> 
<br>4747744747<br>108388383 
</td> 
<td align="center"> 
info<!-- >@_ -->@<!-- >@_ -->audiCal<!-- >@_ -->.<!-- >@_ -->net 
</td> 
<td align="right"> 
&nbsp; 
</td> 
</tr></tbody> 
</table> 

Sto usando BeautifulSoup per analizzare questo, ma ora ho avuto in problema durante il recupero dei dati da ultimi quattro <td>. Ogni volta che leggo i loro valori usando la proprietà .string, ottengo il valore None. Immagino che questo sia dovuto al fatto che hanno tag <br>. Voglio gli ultimi quattro dati <td> con indirizzo, numero di telefono, email_id e fax. Invece di .string che cosa dovrei usare per ottenere tutti quei dati?

+0

"Ultimi quattro" cosa? – poolie

risposta

4

È possibile utilizzare .text per ottenere il testo.

Edit:

Un'altra opzione può essere sempre ogni elemento utilizzando .contents e unirsi a loro, se necessario.

+0

Uisng. Text funziona ma mi dà 108388383 come 4747744747108388383 e voglio che sia 4747744747,108388383: | – Anshul

0

Una volta che avete una maniglia per td elemento è possibile utilizzare:

td.findAll(text=True) 

per ottenere un elenco di sottoelementi testo del tag td. Quindi puoi join elencare su ,

Problemi correlati