The official tutorial specifica il modo su come chiamare Scrapy all'interno di script pythonScrapy - Quando si chiama Scrapy dallo script, come restituire un dizionario per il processo subito, invece di esportare in un file JSON
Cambiando gli attributi seguente impostazione :
settings.overrides['FEED_URI'] = output_path
settings.overrides['FEED_FORMAT'] = 'json'
Sono in grado di memorizzare i dati raschiati in un file JSON.
Tuttavia, sto cercando di elaborare e restituire immediatamente i dati raschiati all'interno della funzione definita. Quindi, altre funzioni possono chiamare questa funzione wrapper per eliminare alcuni siti Web.
Immagino ci siano alcune impostazioni che posso riprodurre con FEED_URI
, ma non ne sono sicuro. Qualsiasi consiglio sarà apprezzato profondamente!
Creare una pipeline? Vedi [questa risposta] (http://stackoverflow.com/a/27744766/771848) (tutorial non ufficiale). – alecxe