Questo è di Scrapy predefinita Dupefilter
metodo di classe request_seen
Scrapy - Recupera oggetto ragno nel dupefilter
class RFPDupeFilter(BaseDupeFilter):
def request_seen(self, request):
fp = self.request_fingerprint(request)
if fp in self.fingerprints:
return True
self.fingerprints.add(fp)
if self.file:
self.file.write(fp + os.linesep)
Mentre l'attuazione di un dupefilter personalizzato. non riesco a recuperare l'oggetto spider
da questa classe a differenza di altri middleware scrapy
Esiste un modo per sapere quale oggetto è spider
? quindi posso personalizzarlo tramite un ragno su base spider?
Inoltre, non posso semplicemente implementare un middleware che legge gli URL e lo inserisce in un elenco & controlla i duplicati anziché un dupifilter personalizzato. Questo perché ho bisogno di mettere in pausa/riprendere la striscia e la necessità Scrapy per memorizzare la richiesta di impronte digitali di default utilizzando il JOBDIR
impostazione