Sto utilizzando BeautifulSoup e urllib2 per scaricare pagine HTML e analizzarle. Il problema è con pagine HTML errate. Sebbene BeautifulSoup sia bravo a gestire l'HTML malformato, ancora non è buono come Firefox.Utilizzo di Gecko/Firefox o Webkit ottenuto l'analisi HTML in python
Considerando che Firefox o Webkit sono più aggiornati e resilienti alla gestione di HTML, penso che sia l'ideale per utilizzarli per costruire e normalizzare l'albero DOM di una pagina e quindi manipolarlo tramite Python.
Tuttavia non riesco a trovare alcun collegamento Python per lo stesso. Qualcuno può suggerire un modo?
Ho trovato alcune soluzioni per eseguire un processo headless di Firefox e manipolarlo tramite Python, ma è disponibile una soluzione più pitonica.
potrebbe essere che si sta utilizzando bella zuppa 3.1 che "fa significativamente peggiore su HTML del mondo reale alla versione 3.0.7a fa"? [1] dovuto analizzare alcune cose recentemente me stesso e ho scoperto che 3.0.7 gestisce davvero le cose molto meglio. usa easy_install per passare a 3.0.7a: sudo easy_install beautifulsoup == 3.0.7a [1] http://www.crummy.com/software/BeautifulSoup/3.1-problems.html –