2009-03-26 10 views

risposta

9

Due dei miei strumenti preferiti per il web scraping Python sono Scrapy e Mechanize. Ognuno di questi progetti ha il suo tutorial e le migliori pratiche.

+1

Esiste anche una versione in rubino di Mechanize. –

+0

Grazie per Scrapy. Sembra bello – Alagu

5

Non uno strumento, davvero, ma una buona discussione è il libro di Michael Shrenk, Webbots, Spiders, and Screen Scrapers.

Il libro riesce molto bene nella sua missione dichiarata: spiegare come costruire semplici web robot e gestirli in conformità con gli standard della comunità. Non è tutto quello che devi sapere, ma è la migliore introduzione che ho visto. L'attenzione si concentra su semplici robot a thread singolo. C'è un piccolo accenno all'uso di bot multipli che memorizzano i dati in un repository centrale, ma non si discute dei problemi relativi alla scrittura di bot multi-thread o distribuiti che possono elaborare centinaia di pagine al secondo.

Ti consiglio di leggere questo libro se sei interessato a scrivere bot Web, anche se non hai familiarità o intenzione di utilizzare PHP. Ma assicurati di non aspettarti di più delle offerte di libri.

4

Cerca su lxml invece di BeautifulSoup. Nonostante il suo nome, è anche per l'analisi e lo scraping di HTML. È molto, molto più veloce di BeautifulSoup, e gestisce anche l'HTML "spezzato" meglio di BeautifulSoup (la loro pretesa di fama - lxml non è così vocale a riguardo). Ha anche un'API di compatibilità per BeautifulSoup se non vuoi imparare l'API lxml.

Ian Blicking agrees.

Non c'è più motivo di utilizzare BeautifulSoup più, a meno che tu non sia su Google App Engine o qualcosa in cui qualcosa non puramente Python non è consentito.

Problemi correlati