2011-12-05 13 views
11

Alcuni server dispongono di un file robots.txt per impedire ai crawler di eseguire la scansione nei loro siti Web. C'è un modo per far sì che un web crawler ignori il file robots.txt? Sto usando Mechanize per Python.Web Crawler - Ignora il file Robots.txt?

+3

Se si esegue questa operazione, ci sono presumibilmente problemi legali –

+3

Si prega di non farlo. –

+8

Il downvoting non è corretto poiché è una domanda legittima. Comunque questa è una cattiva idea. –

risposta

26

Il documentation per mechanize ha questo codice di esempio:

br = mechanize.Browser() 
.... 
# Ignore robots.txt. Do not do this without thought and consideration. 
br.set_handle_robots(False) 

che fa esattamente ciò che vuoi.

+0

Suggerisco di sollevare il problema su [segnalando questa domanda] (http://stackoverflow.com/questions/8373398/creating-replacement-tapplication-for-experimentation) ancora su meta. Sembra che ci siano opinioni diverse su come dovrebbero essere gestite le sospette violazioni del copyright e una risposta definitiva potrebbe essere d'aiuto. – NullUserException

+0

@NullUser farà. Cercherò di raccogliere insieme in un unico posto tutti i consigli contraddittori che ho avuto, e vedere se non siamo in grado di arrivare a un punto di vista comune! –

8

This sembra quello che vi serve:

from mechanize import Browser 
br = Browser() 

# Ignore robots.txt 
br.set_handle_robots(False) 

ma sai quello che stai facendo ...