Come posso interrompere la scansione per scrapy e uscire quando si verifica la prima eccezione?

Per motivi di sviluppo, desidero interrompere tutte le attività di scansione di scrapy non appena si verifica una prima eccezione (in uno spider o in una pipeline).Come posso interrompere la scansione per scrapy e uscire quando si verifica la prima eccezione?

Qualche consiglio?

fonte

2012-03-01 Udi

dipende esclusivamente dalla logica aziendale. ma questo funzionerà per voi

crawler.engine.close_spider(self, 'log message')

Suggested Reading

e la soluzione peggiore è

import sys 

sys.exit("SHUT DOWN EVERYTHING!")

fonte

2012-03-02 07:29:18

In ragno, si può semplicemente gettare CloseSpider eccezione.

def parse_page(self, response): 
    if 'Bandwidth exceeded' in response.body: 
     raise CloseSpider('bandwidth_exceeded')

Per altri (middleware, gasdotti, ecc), è possibile chiamare manualmente close_spider come Akhter menzionato.

fonte

2013-04-23 03:30:45 imwilsonxu

Qual è il luogo ideale per catturare le eccezioni di ragno in scrapy? Grazie –

Da 0,11, c'è CLOSESPIDER_ERRORCOUNT:

Un numero intero che specifica il numero massimo di errori di ricevere prima di chiudere il ragno. Se lo spider genera più di quel numero di errori, verrà chiuso con il motivo closespider_errorcount. Se zero (o non impostato), gli spider non saranno chiusi dal numero di errori.

Se è impostato su 1, lo spider verrà chiuso alla prima eccezione.

fonte

2016-03-08 15:14:41 tokarev

Grazie! Ho avuto lo stesso problema e questo ha funzionato per me. –

Non funziona dalle pipeline –

Come posso interrompere la scansione per scrapy e uscire quando si verifica la prima eccezione?

risposta

Problemi correlati