2009-06-16 16 views
29

Ho una domanda seria. È mai etico ignorare la presenza di un file robots.txt su un sito web? Queste sono alcune delle considerazioni che ho in mente:Ethics of robots.txt

  1. Se qualcuno mette su un sito web, si aspetta qualche visita. Concesso, i web crawler utilizzano la larghezza di banda senza fare clic sugli annunci che potrebbero supportare il sito ma il proprietario del sito sta mettendo il loro sito sul Web, giusto, quindi quanto è ragionevole per loro aspettarsi che non vengano mai visitati da un bot?

  2. Alcuni siti utilizzano apparentemente un file robots.txt al fine di impedire che il loro sito venga sottoposto a scansione da Google o da qualche altra utility in grado di prelevare prezzi e consentire quindi alle persone di effettuare facilmente confronti tra prezzi. Hanno motori di ricerca privati ​​sul sito, quindi ovviamente vogliono che le persone siano in grado di cercare nel sito; apparentemente semplicemente non vogliono che le persone siano in grado di confrontare facilmente le loro informazioni con altri fornitori.

Come ho detto, non sto cercando di essere polemico; Vorrei solo sapere se qualcuno ha mai inventato un caso in cui è eticamente ammissibile ignorare la presenza di un file robots.txt? Non riesco a pensare a un caso in cui è lecito ignorare i robots.txt principalmente perché le persone (o le imprese) stanno pagando per mettere su i loro siti web in modo che possano essere in grado di dire a Googles/Yahoos/Altri SE del mondo che non voglio essere nei loro indici

Per mettere questa discussione nel contesto, mi piacerebbe creare un sito web di confronto dei prezzi e uno dei principali fornitori ha un robots.txt che sostanzialmente impedisce a chiunque di afferrare i loro prezzi. Mi piacerebbe essere in grado di ottenere le loro informazioni ma, come ho detto, non posso giustificare semplicemente ignorando i desideri del proprietario del sito.

Ho visto alcune discussioni molto chiare qui ed è per questo che mi piacerebbe sentire le opinioni degli sviluppatori che seguono Stack Overflow.

A proposito, c'è qualche discussione su questo argomento su un Hacker News question ma sembrano concentrarsi principalmente sugli aspetti legali di questo.

+0

@Andrei: È stato perché l'ho votato. Non mi è sembrata una domanda valida, a meno che tu non includa "domanda che indica cattive maniere o peggio" come valida. –

+4

@John Saunders - Non riesco davvero a immaginare un caso in cui ignorare il file robots.txt sarebbe ok. Tuttavia, mi rendo conto che potrebbero esserci situazioni che non ho considerato. Sto davvero cercando di mantenere una mente aperta. –

+0

@Onorio: se è così, allora sentiamo la buona ragione. Assente una buona ragione, presumo che non ce ne sia. –

risposta

41

Argomenti:

  1. Un file robots.txt è una licenza implicita, soprattutto perché siete a conoscenza di esso. Quindi, continuare a raschiare il loro sito potrebbe essere visto come accesso non autorizzato (ad esempio, hacking). Sucks, ma argomenti come questo sono stati fatti recentemente in altri casi legali (non direttamente correlati a robots.txt, ma in relazione ad altri "controlli passivi").
  2. I prezzi di acquisizione non violano nessuna legge sul copyright, incluso il DMCA, poiché il copyright non non includere informazioni fattuali, solo creative.
  3. Eticamente, non dovresti prendere i prezzi perché il venditore dovrebbe avere la possibilità di cambiare i prezzi senza preoccuparsi di essere accusato di esca/passaggio da parte di persone provenienti dal tuo sito.
  4. Hai intrapreso la strada maestra, spiegando loro il sito e dicendo che ti piacerebbe includerli nella tua lista di venditori? Forse adoreranno l'idea e in realtà esporranno i dati in un modo facile da consumare e meno dispendioso in termini di risorse da produrre.
  5. Non ci sono leggi scritte direttamente su robots.txt perché generalmente si segue la netiquette. Non essere uno dei "cattivi".
  6. Alcune persone filtrano i robot perché utilizzano collegamenti URL per eseguire "azioni" come aggiungere cose ai carrelli e i robot li lasciano con un enorme numero di carrelli abbandonati nel loro database.
  7. Alcune persone filtrano i robot perché hanno prezzi esclusivi che non possono pubblicizzare apertamente in base agli accordi con i loro fornitori. Potresti metterli in una brutta posizione esponendo quei prezzi sul tuo sito.
  8. In questa economia, se un'azienda non vuole fare tutto il possibile per farsi pubblicità, è colpa sua se non le includi.
+1

Prenderò in particolare considerazione i punti 4 e 8. Che tipo di società non vorrebbe divulgare ciò che offrono? – Marcel

+0

# 2: molti luoghi hanno il cosiddetto database giusto. Posso ricordare almeno una condanna per scraping web nel mio paese europeo. – Marin

2

"No" significa "no".

+0

E tutto ciò che è scritto all'interno dei Termini di servizio è perfettamente vero? –

+0

Forse sì, forse no, ma presumo sia vero, e chiedi. Altrimenti, stai assumendo che ti stiano mentendo. Io, personalmente, sarei offeso dal fatto che tu credessi che mentissi. Altri, invece di essere offesi, chiamerebbero i loro avvocati. Il mio consiglio: sii gentile. –

25

L'altro uso di robots.txt è di proteggere gli spider Web da soli. È relativamente facile per un web spider essere impantanato in una foresta infinitamente profonda di link, e un file robots.txt correttamente costruito dirà allo spider che "non è necessario andare qui".

+4

Questo è un buon punto. Blogger, ad esempio, dice ai crawler di ignorare le ricerche delle etichette perché queste dovrebbero essere già state trovate. – cletus

+7

Così fa stackoverflow: http://stackoverflow.com/robots.txt –

+0

Grazie Greg. Non ho intenzione di ignorare un file robots.txt - Volevo solo sapere se c'erano altre cose che non avevo considerato. –

-4

Se le persone lo mettono a disposizione del pubblico, non dovrebbero cercare di porre dei limiti. Aggiungere un file robots.txt al tuo sito equivale a mettere un cartello sul tuo prato che dice "Per favore non guardarmi".

+3

La tua analogia è imperfetta. Un prato ha un'estensione specifica nello spazio. È possibile sapere quando hai visto tutto di un prato. Non così con un sito web. Il fatto che la tua analogia sia così lontana, semplicemente in termini di "estensione fisica", mi suggerisce che potresti voler rivisitare l'intero approccio a questa domanda. –

+0

Secondo me usare robots.txt per tentare di nascondere qualcosa è come mettere un cartello fuori casa che dice "Non usare la combinazione 22-18-76 per aprire la cassaforte nell'armadio della camera da letto" – UnkwnTech

+1

Questo è un falso confronto. Guardare il prato di qualcuno non usa le loro risorse. Navigare o scansionare il loro sito web fa, quindi è del tutto ragionevole imporre limiti. –

1

Per rispondere alla domanda ristretta, per il sito web di confronto prezzi è probabilmente meglio afferrare il prezzo in tempo reale, piuttosto che rottamare il database in anticipo. Difficile immaginare che sia un problema.

1

Uno dei motivi per cui consentiamo ai robot di scavare nel Web senza lamentarsi è che abbiamo un modo per fermarli se vogliamo. Protegge entrambi i lati.

Ricordate il frastuono quando i robot di Cuil sono stati accusati di andare sopra le righe, apparentemente agendo come un attacco DoS in alcuni casi e utilizzando le indennità di larghezza di banda di alcuni piccoli siti?

Se troppe persone violano il file robots.txt, potremmo ottenere qualcosa di peggio.

+3

Infatti, qui è dove ignorare robots.txt ci porterà: http://www.theonion.com/content/video/in_the_know_are_we_giving_the –

-2

Qui sto mostrando un po 'di ignoranza, ma ho sempre pensato che un bot fosse qualcosa inviato solo da un motore di ricerca. Come Google o Yahoo.

Quindi, se hai scritto un'applicazione che ha cercato il contenuto su Internet, non lo considererei un bot del motore di ricerca, che a mia conoscenza è ciò che robots.txt sta tentando di bloccare.

Ma questo potrebbe essere solo l'ignoranza selettiva, perché potrei farlo fino a quando il webmaster di quel sito mi ha contattato e mi ha chiesto di smettere :)

+4

Si chiama robots.txt, non search-engines.txt. È per tutti i web crawler automatizzati obbedire a qualsiasi cosa non sia gestita in modo interattivo da un essere umano. Inoltre, è uno stato mentale divertente che pensa che la ricerca di contenuti su Internet non sia un motore di ricerca. –

+0

Come ho detto, "ignoranza selettiva". Ma sì, sono d'accordo con quello che stai dicendo. – MattK311

+2

Un Bot sarebbe un raschiatore automatico che va contro un sito Web e recupera informazioni. IMHO, non importa se il software è scritto da un individuo o un'azienda. –

0

Risposta breve: No.

Sulla questione stretta: Se un venditore dice che i suoi prezzi sono segreti, penso che devi rispettarlo. Li contatterei e chiederei se davvero non vogliono motori di comparazione dei prezzi come il tuo per includerli, o se il segno di "non sconfinare" è per ragioni tecniche. Se quest'ultimo, forse ti forniranno un'alternativa. Se il primo, poi direi troppo male, non vengono inclusi, perdono un po 'di affari, ed è il loro problema.

sproloquio tangenziale: Personalmente, ho diventare piuttosto seccato con le aziende che mi fanno i salti mortali per scoprire il prezzo dei loro prodotti, luoghi che mi fanno chiamare e parlare con un venditore in modo che mi può dare un campo difficile vendere , o peggio, fammi dare il mio numero di telefono in modo che il loro venditore possa chiamarmi e molestarmi. Immagino che se hanno paura di dirmi il prezzo, probabilmente significa che è troppo alto.

In generale: un file robots.txt è come un segno "No Trespassing".È il diritto del proprietario di dire chi è autorizzato sulla loro proprietà. Se pensi che le loro ragioni siano stupide, puoi educatamente suggerire di prendere l'insegna. Ma tu non hai il diritto di ignorare i loro desideri. Se qualcuno mette un cartello di No Trespassing nel suo cortile e io dico "Ehi, voglio solo fare una scorciatoia veloce, qual è il problema?" - Forse sto calpestando le sue pregiate bulbi viola bulgare e distruggendo un investimento prezioso. Forse sto attraversando il sacro cimitero del suo popolo e offendo la loro sensibilità religiosa. O forse è solo un coglione. Ma è ancora proprietà sua e sua destra. Oh, e se cado nella pericolosa dolina dopo aver ignorato il segno di No Trespassing, chi è la colpa? (In America, probabilmente potrei comunque denunciarlo per tutto ciò che vale nonostante il fatto che mi abbia avvertito, ma è giusto?)

3

Molte persone hanno cercato di costruire imprese senza costruire motori di "confronto dei prezzi" che raschiavano i siti principali .

Una volta che si inizia a ottenere qualsiasi tipo di traffico/entrate di cui parlare, si sarà ricevere un cease and desist. È successo a dozzine, se non centinaia di progetti. Ho persino lavorato a un piccolo progetto che ha ricevuto un C & D da Craigslist.

Sai come si dice "È più facile chiedere perdono che ottenere il permesso"? Non è vero con lo scraping della pagina. Ottieni il permesso, o sentirai dai loro avvocati.

Se sei fortunato, sarà presto, quando non hai niente da perdere. Se è tardi, potresti perdere la tua attività e tutto il lavoro durante la notte, con una sola lettera.

Ottenere il permesso non dovrebbe essere difficile. A meno che tu non stia facendo qualcosa di subdolo, probabilmente lo farai guidare dal traffico addizionale. Diavolo, una volta che il tuo prodotto decolla, i siti potrebbero implorarti o anche pagarti per aggiungere i loro dati.

+0

+1. Ci sono stato, fatto quello (meta ricerca di viaggio), ha ottenuto avvisi legali. Molti venditori non amano i consumatori per confrontare i prezzi ... –