Web Crawler - Ignora il file Robots.txt?

Alcuni server dispongono di un file robots.txt per impedire ai crawler di eseguire la scansione nei loro siti Web. C'è un modo per far sì che un web crawler ignori il file robots.txt? Sto usando Mechanize per Python.Web Crawler - Ignora il file Robots.txt?

fonte

2011-12-05 Craig Locke

Se si esegue questa operazione, ci sono presumibilmente problemi legali –

Si prega di non farlo. –

Il downvoting non è corretto poiché è una domanda legittima. Comunque questa è una cattiva idea. –

Il documentation per mechanize ha questo codice di esempio:

br = mechanize.Browser() 
.... 
# Ignore robots.txt. Do not do this without thought and consideration. 
br.set_handle_robots(False)

che fa esattamente ciò che vuoi.

fonte

2011-12-05 14:10:33

Suggerisco di sollevare il problema su [segnalando questa domanda] (http://stackoverflow.com/questions/8373398/creating-replacement-tapplication-for-experimentation) ancora su meta. Sembra che ci siano opinioni diverse su come dovrebbero essere gestite le sospette violazioni del copyright e una risposta definitiva potrebbe essere d'aiuto. – NullUserException

@NullUser farà. Cercherò di raccogliere insieme in un unico posto tutti i consigli contraddittori che ho avuto, e vedere se non siamo in grado di arrivare a un punto di vista comune! –

This sembra quello che vi serve:

from mechanize import Browser 
br = Browser() 

# Ignore robots.txt 
br.set_handle_robots(False)

ma sai quello che stai facendo ...

fonte

2011-12-05 14:09:31 eumiro

Web Crawler - Ignora il file Robots.txt?

risposta

Problemi correlati