Alcuni server dispongono di un file robots.txt per impedire ai crawler di eseguire la scansione nei loro siti Web. C'è un modo per far sì che un web crawler ignori il file robots.txt? Sto usando Mechanize per Python.Web Crawler - Ignora il file Robots.txt?
risposta
Il documentation per mechanize ha questo codice di esempio:
br = mechanize.Browser()
....
# Ignore robots.txt. Do not do this without thought and consideration.
br.set_handle_robots(False)
che fa esattamente ciò che vuoi.
Suggerisco di sollevare il problema su [segnalando questa domanda] (http://stackoverflow.com/questions/8373398/creating-replacement-tapplication-for-experimentation) ancora su meta. Sembra che ci siano opinioni diverse su come dovrebbero essere gestite le sospette violazioni del copyright e una risposta definitiva potrebbe essere d'aiuto. – NullUserException
@NullUser farà. Cercherò di raccogliere insieme in un unico posto tutti i consigli contraddittori che ho avuto, e vedere se non siamo in grado di arrivare a un punto di vista comune! –
This sembra quello che vi serve:
from mechanize import Browser
br = Browser()
# Ignore robots.txt
br.set_handle_robots(False)
ma sai quello che stai facendo ...
- 1. Tor Web Crawler
- 2. Web crawler - seguenti link
- 3. Web crawler in ruby
- 4. Crea un web crawler/spider
- 5. Meta tag vs robots.txt
- 6. Expert F # esempio web crawler
- 7. Semplice web crawler in C#
- 8. Ethics of robots.txt
- 9. File robots.txt in MVC.NET 4
- 10. Esiste un elenco di web crawler conosciuti?
- 11. Etichetta corretta per le richieste HTTP del crawler Web
- 12. Robots.txt diverso per il server di gestione temporanea su Heroku
- 13. Come mantenere attivo un crawler web?
- 14. Miglior crawler grafico web per la velocità?
- 15. Web crawler in grado di interpretare JavaScript
- 16. Come consentire ai crawler di accedere solo a index.php, usando robots.txt?
- 17. Facebook Crawler Bot Sito in crash
- 18. Utilizzare il crawler nel controller
- 19. parser robots.txt java
- 20. Ruby, Mongodb, Anemone: web crawler con possibili perdite di memoria?
- 21. Ignora file di documentazione XML con Web Deploy
- 22. È possibile controllare la velocità di scansione da robots.txt?
- 23. Qualcuno conosce un buon web crawler open source estendibile?
- 24. Tipico fattore di cortesia per un web crawler?
- 25. ottenere vietato dalla robots.txt: Scrapy
- 26. Come può un web crawler Perl seguire un postback ASP.NET?
- 27. Come posso gestire Javascript in un web crawler Perl?
- 28. Protezione degli indirizzi e-mail da bot spam/web crawler
- 29. Git ignora i file cancellati
- 30. Quali librerie di web crawler PHP sono disponibili?
Se si esegue questa operazione, ci sono presumibilmente problemi legali –
Si prega di non farlo. –
Il downvoting non è corretto poiché è una domanda legittima. Comunque questa è una cattiva idea. –