Devo esplorare l'albero DOM di un documento HTML analizzato.Come analizzare HTML malformato in python
sto usando uTidyLib prima di parsing della stringa con lxml
a = tidy.parseString (html_code, opzioni) dom = etree.fromstring (str (a))
a volte ottengo un errore , sembra che tidylib non sia in grado di riparare html malformato.
Come posso analizzare ogni file HTML senza ottenere un errore (analizzando solo alcune parti di file che non possono essere riparate)?
+1, ElementSoup è un'alternativa eccellente qui. –
I collegamenti sono stati interrotti; li ha modificati. Speriamo che le nuove posizioni contengano lo stesso contenuto a cui inizialmente si stava puntando. – tripleee
Se non hai installato una bella zuppa, potresti averne bisogno per la zuppa Element. Basta fare "pip install beautifulsoup" – BobTuckerman