Ho appena installato scrapy e ho seguito il loro semplice dmoz tutorial che funziona. Ho appena cercato la gestione dei file di base per Python e ho cercato di convincere il crawler a leggere un elenco di URL da un file, ma ho ricevuto alcuni errori. Questo è probabilmente sbagliato ma ho dato un colpo. Qualcuno potrebbe mostrarmi un esempio di lettura di un elenco di URL in scrapy? Grazie in anticipo.Scrapy ha letto l'elenco di URL dal file per raschiare?
from scrapy.spider import BaseSpider
class DmozSpider(BaseSpider):
name = "dmoz"
allowed_domains = ["dmoz.org"]
f = open("urls.txt")
start_urls = f
def parse(self, response):
filename = response.url.split("/")[-2]
open(filename, 'wb').write(response.body)
'readlines()' mantiene i ritorni a capo alla fine di ogni riga. Ho inviato una modifica che eseguirà 'strip()' le nuove righe e chiuderà il file. –