Desidero utilizzare scrapy per la scansione di pagine Web. C'è un modo per passare l'URL di partenza dal terminale stesso?Come dare URL a scrapy per la scansione?
Si è dato nel documentation che o il nome del ragno o l'URL può essere dato, ma quando ho dato l'URL che genera un errore:
// nome del mio Spider è esempio, ma io sto dando url al posto del mio nome di spider (funziona bene se do il nome di spider).
scrapy crawl example.com
ERRORE:
File "/usr/local/lib/python2.7/dist-packages/Scrapy-0.14.1-py2.7.egg/scrapy/spidermanager.py", line 43, in create raise KeyError("Spider not found: %s" % spider_name) KeyError: 'Spider not found: example.com'
Come posso fare Scrapy di utilizzare il mio ragno sul URL specificato nel terminale ??
Is example.com aggiunto ai domini consentiti del tuo spider? –
yes example.com viene aggiunto a allowed_domains. Quello che voglio veramente è dare start_url dalla riga di comando. Come posso farlo? –