Generalmente utilizzo lxml per le mie esigenze di analisi HTML, ma non è disponibile su Google App Engine. L'alternativa ovvia è BeautifulSoup, ma trovo che soffochi troppo facilmente su HTML malformato. Attualmente sto testando libxml2dom e sto ottenendo risultati migliori.parser HTML per GAE
Quale parser HTML Python puro hai trovato funziona meglio? La mia priorità è la capacità di gestire il brutto HTML in eccesso.
Doh! libxml2 non è incluso in Python su GAE quindi libxml2dom non è disponibile – hoju