Ho passato gli ultimi due giorni a cogliere le nozioni di base di lxml; in particolare utilizzando lxml.html per analizzare i siti Web e creare un ElementTree del contenuto. Idealmente, voglio salvare l'ElementTree restituito in modo che possa caricarlo e sperimentarlo, senza dover analizzare il sito ogni volta che modifico il mio script. Supponevo che il decapaggio fosse la strada da percorrere, tuttavia ora sto cominciando a chiedermi. Anche se sono in grado di recuperare un oggetto ElementTree dopo il decapaggio ...salvataggio di un oggetto 'lxml.etree._ElementTree'
type(myObject)
rendimenti
<class 'lxml.etree._ElementTree'>
l'oggetto stesso sembra essere 'vuoto', dal momento che nessuno del metodo successiva/attributo chiama faccio su di esso produce qualsiasi output.
La mia ipotesi è che il decapaggio non sia appropriato qui, ma qualcuno può suggerire un'alternativa?
(Nel caso in cui le cose, quanto sopra sta accadendo in: python3.2, lxml 2.3.2, snow-Leopard))
Grazie per la risposta. Sfortunatamente la mia comprensione di lxml, alberi di elementi e simili, è così schematica che in realtà non capisco i suggerimenti che hai fatto.Ho cercato duramente di sfogliare il manuale di lxml negli ultimi due giorni, ma non ho ottenuto nulla, quindi per il momento lascerò questo progetto. –
Il metodo di scrittura suggerito mi ha generato un errore in python3, ma il passaggio da "w" a "wb" ha funzionato. – deinonychusaur
@Tomalak: grazie mille per la correzione. – unutbu