Sono nuovo di Scrapy e sto lavorando a un esercizio di raschiamento e sto utilizzando CrawlSpider. Sebbene il framework Scrapy funzioni magnificamente e segua i link rilevanti, non riesco a far sembrare a CrawlSpider il primo collegamento (la home page/landing page). Invece va direttamente a raschiare i collegamenti determinati dalla regola ma non raschia la pagina di destinazione su cui si trovano i collegamenti. Non so come risolvere questo problema poiché non è consigliabile sovrascrivere il metodo di analisi per un CrawlSpider. Modificando follow = True/False, inoltre, non si ottengono buoni risultati. Ecco il frammento di codice:Scrapy CrawlSpider non esegue la scansione della prima pagina di destinazione
class DownloadSpider(CrawlSpider):
name = 'downloader'
allowed_domains = ['bnt-chemicals.de']
start_urls = [
"http://www.bnt-chemicals.de"
]
rules = (
Rule(SgmlLinkExtractor(aloow='prod'), callback='parse_item', follow=True),
)
fname = 1
def parse_item(self, response):
open(str(self.fname)+ '.txt', 'a').write(response.url)
open(str(self.fname)+ '.txt', 'a').write(','+ str(response.meta['depth']))
open(str(self.fname)+ '.txt', 'a').write('\n')
open(str(self.fname)+ '.txt', 'a').write(response.body)
open(str(self.fname)+ '.txt', 'a').write('\n')
self.fname = self.fname + 1
Hai sbagliato l'argomento 'allow' – webKnjaZ