Ho una domanda seria. È mai etico ignorare la presenza di un file robots.txt su un sito web? Queste sono alcune delle considerazioni che ho in mente:Ethics of robots.txt
Se qualcuno mette su un sito web, si aspetta qualche visita. Concesso, i web crawler utilizzano la larghezza di banda senza fare clic sugli annunci che potrebbero supportare il sito ma il proprietario del sito sta mettendo il loro sito sul Web, giusto, quindi quanto è ragionevole per loro aspettarsi che non vengano mai visitati da un bot?
Alcuni siti utilizzano apparentemente un file robots.txt al fine di impedire che il loro sito venga sottoposto a scansione da Google o da qualche altra utility in grado di prelevare prezzi e consentire quindi alle persone di effettuare facilmente confronti tra prezzi. Hanno motori di ricerca privati sul sito, quindi ovviamente vogliono che le persone siano in grado di cercare nel sito; apparentemente semplicemente non vogliono che le persone siano in grado di confrontare facilmente le loro informazioni con altri fornitori.
Come ho detto, non sto cercando di essere polemico; Vorrei solo sapere se qualcuno ha mai inventato un caso in cui è eticamente ammissibile ignorare la presenza di un file robots.txt? Non riesco a pensare a un caso in cui è lecito ignorare i robots.txt principalmente perché le persone (o le imprese) stanno pagando per mettere su i loro siti web in modo che possano essere in grado di dire a Googles/Yahoos/Altri SE del mondo che non voglio essere nei loro indici
Per mettere questa discussione nel contesto, mi piacerebbe creare un sito web di confronto dei prezzi e uno dei principali fornitori ha un robots.txt che sostanzialmente impedisce a chiunque di afferrare i loro prezzi. Mi piacerebbe essere in grado di ottenere le loro informazioni ma, come ho detto, non posso giustificare semplicemente ignorando i desideri del proprietario del sito.
Ho visto alcune discussioni molto chiare qui ed è per questo che mi piacerebbe sentire le opinioni degli sviluppatori che seguono Stack Overflow.
A proposito, c'è qualche discussione su questo argomento su un Hacker News question ma sembrano concentrarsi principalmente sugli aspetti legali di questo.
@Andrei: È stato perché l'ho votato. Non mi è sembrata una domanda valida, a meno che tu non includa "domanda che indica cattive maniere o peggio" come valida. –
@John Saunders - Non riesco davvero a immaginare un caso in cui ignorare il file robots.txt sarebbe ok. Tuttavia, mi rendo conto che potrebbero esserci situazioni che non ho considerato. Sto davvero cercando di mantenere una mente aperta. –
@Onorio: se è così, allora sentiamo la buona ragione. Assente una buona ragione, presumo che non ce ne sia. –