2010-04-18 17 views

risposta

12

SeleniumRC con selenium.py è un'alternativa (e una delle poche opzioni realizzabili se le pagine necessarie per raschiare hanno un importante ruolo di "strutturale" per le operazioni di Javascript, esp. Quelli AJAX-y, poiché Mechanize non esegue il Javascript sulle pagine sta raschiando).

7

Per la raschiatura e la gestione dei moduli è possibile utilizzare lxml.html (tuttavia non automatizza il recupero e i cookie).

scrapy è una libreria specifica per lo scraping.

3

Ho usato twill per molte delle mie esigenze di test. Funziona come un linguaggio stand-alone per "navigazione web" o come libreria da Python. In realtà utilizza Mechanize sotto il cofano, quindi non sono sicuro che soddisferà le tue esigenze: incontrerai problemi intrinseci a Mechanize o trarrai vantaggio da un livello di alto livello?

3

ho avuto successo con Splinter, una soluzione costruita sulla parte superiore del selenio - mentre fornisce API più divinatorio.

Problemi correlati