Sto usando il qui sotto per ottenere tutti i contenuti html di una sezione per salvare in un databasePython, lxml e la rimozione di tag esterno da utilizzare lxml.html.tostring (el)
el = doc.get_element_by_id('productDescription')
lxml.html.tostring(el)
La descrizione del prodotto ha un tag che assomiglia a questo:
<div id='productDescription'>
<THE HTML CODE I WANT>
</div>
il codice funziona alla grande, mi dà tutto il codice HTML ma come faccio a rimuovere lo strato esterno cioè il <div id='productDescription'>
e il tag di chiusura </div>
?
Che cos'è 'basestring'? – nHaskins