2010-01-29 13 views
5

Generalmente utilizzo lxml per le mie esigenze di analisi HTML, ma non è disponibile su Google App Engine. L'alternativa ovvia è BeautifulSoup, ma trovo che soffochi troppo facilmente su HTML malformato. Attualmente sto testando libxml2dom e sto ottenendo risultati migliori.parser HTML per GAE

Quale parser HTML Python puro hai trovato funziona meglio? La mia priorità è la capacità di gestire il brutto HTML in eccesso.

+0

Doh! libxml2 non è incluso in Python su GAE quindi libxml2dom non è disponibile – hoju

risposta

5

Dal BeautifulSoup documentation:

versione 3.1.0 di Beautiful Soup fa significativamente peggiore su HTML del mondo reale alla versione 3.0.8 non

Quindi, potrebbe essere utile l'utilizzo di questo versione precedente. Questo è esattamente ciò che l'autore stesso raccomanda.

Si può fingere che la versione 2.5.0 di Beautiful Soup non sia mai stata rilasciata. La versione 3.0.8 funziona ancora bene su Python 2.3 fino a 2.6.

+0

Grazie a ciò, ho ottenuto prestazioni migliori con 3.0.8 ma non è riuscito a analizzare correttamente la pagina Web. Anche l'autore di BS ha perso interesse a svilupparlo ulteriormente, quindi è meglio investire tempo altrove. – hoju