Sto cercando di recuperare del testo dai documenti html con BeautifulSoup. In un caso molto interessante per me, origina un risultato strano e interessante: dopo un certo punto, la zuppa è piena di spazi extra all'interno del testo (uno spazio separa ogni lettera dal seguente). Ho provato a cercare sul Web per trovare una ragione, ma ho incontrato solo alcune notizie sul bug opposto (niente spazi).BeautifulSoup restituisce spazi extra inaspettati
Avete qualche suggerimento o suggerimento sul perché accade e su come risolvere questo problema ?.
Questo è il codice di base che ho creato:
from bs4 import BeautifulSoup
import urllib2
html = urllib2.urlopen("http://www.beppegrillo.it")
prova = html.read()
soup = BeautifulSoup(prova)
print soup
E questa è una linea assunta dai risultati, la linea dove questo problema iniziano a comparire:
value = \" Giuseppe labbate ogm? Non vorremmo nuovi uccelli lontra \ "> < input onmouseover = \" Suggerimento ('< cen terclass = \ \' title _ video \ \ '> <b> G iuseppelabbateo g m? n o n v o r r e m m o n u o v i u c c e l l i c h i a m a t i l o n t r e <
Perché stai stampando 'ultrasoup'? Non dovrebbe essere "zuppa"? – svineet
Lo stesso problema qui con un altro sito web. Sto ancora cercando di capire se questo è un problema con BeautifulSoup o il lxml sottostante. Il software funziona senza problemi su un Python a 32 bit e fallisce con 64 bit. – Matthias
Mi scuso per "ultrasoup", solo un piccolo errore. Certo, il codice giusto era 'print soup' –