Voglio costruire un web crawler basato su Scrapy per catturare immagini di notizie da diversi siti Web del portale di notizie. Voglio questo crawler di essere:Come costruire un web crawler basato su Scrapy per essere eseguito per sempre?
correre per sempre
significa che sarà periodica ri-visitare alcune pagine del portale per ottenere gli aggiornamenti.
Priorità di pianificazione.
Assegna priorità diverse a diversi tipi di URL.
Discussione multi recuperare
Ho letto il documento Scrapy ma non ho trovato qualcosa legato a quello che ho elencato (forse io non sono abbastanza attento). C'è qualcuno qui che sa come farlo? o semplicemente dare qualche idea/esempio a riguardo. Grazie!
Grazie! A mio parere, gli Spider sembrano funzionare per un lavoro "una tantum" (basta eseguire la scansione di tutti gli elementi specificati e uscire). Quindi intendi se voglio un crawler di lunga durata, dovrei scrivere io stesso l'applicazione e chiamare lo spider per fare il lavoro. Non è facile implementare la logica a lungo termine all'interno di Scrapy tramite middleware o qualcos'altro, giusto? – superb
Probabilmente potresti implementare la logica del re-spider nel livello Spider Middleware, ma le primitive non sembrano adatte per questo e il mio istinto è che spingerai la logica del livello dell'applicazione nel livello di presentazione (se posso essere permesso di abusare della terminologia OSI). http://doc.scrapy.org/topics/spider-middleware.html – msw
Il collegamento scheduler middleware, che ci avete fornito, non sta funzionando ora. –