Ho appena iniziato a pensare di creare/personalizzare un crawler web oggi e so molto poco sull'etichetta del web crawler/robot. La maggior parte degli scritti sull'etichetta che ho trovato sembrano vecchi e scomodi, quindi mi piacerebbe avere alcuni spunti attuali (e pratici) dalla comunità degli sviluppatori web.Quali sono le considerazioni chiave durante la creazione di un crawler web?
voglio usare un cingolato per camminare sopra "web" per un super semplice scopo - "fa la marcatura del sito XYZ si incontrano condizione ABC?".
Questo solleva un sacco di domande per me, ma penso che le due questioni principali che ho bisogno di uscire di mezzo prima sono:
- ci si sente un po ' "incerto" da ottenere andare - questo tipo di cose è accettabile?
- Quali considerazioni specifiche deve fare il crawler per non disturbare le persone?
Inserire le informazioni di contatto nell'agente utente è un ottimo modo per presentare il proprio ragno ai responsabili del sito e rendere evidente che si è amichevoli e di sopra, inserendo le proprie informazioni di contatto. Se hanno un problema con il tuo sito, potresti avere la possibilità di lavorare con loro per ottenere un feed o un'API se possono contattarti. Offusca tale informazione o non ce la fornisce e raggiungerà immediatamente l'ascia e interromperà l'accesso vietando il tuo dominio. –