Sto usando scrapy per eseguire la scansione di più pagine su un sito. La variabile start_urls
viene utilizzata per definire le pagine da sottoporre a ricerca per indicizzazione. avrei inizialmente iniziare con prima pagina, definendo così start_urls = [1st page]
nel file example_spider.py
start_urls dinamico in scrapy
Su ottenere maggiori informazioni dal 1 ° pagina, avrei determinare quali sono i prossimi pagine venga eseguita la scansione, poi sarebbe assegnare start_urls
conseguenza. Quindi, devo sovrascrivere sopra example_spider.py con le modifiche a start_urls = [1st page, 2nd page, ..., Kth page]
, quindi eseguire di nuovo la scansione scrapy.
È l'approccio migliore o esiste un modo migliore per assegnare dinamicamente l'API start_urls
utilizzando la API scrapy senza dover sovrascrivere example_splider.py
? Grazie.
è la parseItem (self, response) restituisce l'oggetto? – friddle
'parseItem' come qualsiasi altra richiamata può restituire un' item' o un'altra 'richiesta' con un'altra callback – warvariuc
grazie per la risposta – friddle