Come configurare e lanciare un ragno Scrapy di programmazione (URL e impostazioni)

Ho scritto un cingolato di lavoro utilizzando Scrapy,
ora voglio controllarlo attraverso una webapp Django, vale a dire:Come configurare e lanciare un ragno Scrapy di programmazione (URL e impostazioni)

Set 1 o più start_urls
Set 1 o più allowed_domains
Set settings valori
Avviare il ragno
Stop/pausa/ripresa di un ragno
recuperare alcune statistiche mentre è in esecuzione
recuperare alcune statistiche dopo che lo spider è completo.

In un primo momento ho pensato scrapyd è stato fatto per questo, ma dopo aver letto il documento, sembra che sia più un demone in grado di gestire 'i ragni confezionati', alias 'uova Scrapy'; e che tutte le impostazioni (start_urls, allowed_domains, settings) devono ancora essere codificate nel "egg scrapy" stesso; quindi non sembra una soluzione alla mia domanda, a meno che non mi sia sfuggito qualcosa.

Ho anche esaminato questa domanda: How to give URL to scrapy for crawling?; Ma la migliore risposta per fornire più url è qualificata dall'autore come un "brutto hacking", che coinvolge alcuni subprocessi python e una complessa gestione della shell, quindi non penso che la soluzione sia trovata qui. Inoltre, potrebbe funzionare per start_urls, ma non sembra consentire allowed_domains o settings.

Quindi ho dato un'occhiata a scrapy webservices: Sembra essere la buona soluzione per il recupero delle statistiche. Tuttavia, esso richiede comunque un ragno in esecuzione, e nessun indizio di cambiare settings

Ci sono diverse domande su questo argomento, nessuno di loro sembra soddisfacente:

using-one-scrapy-spider-for-several-websites questo sembra obsoleto, come Scrapy ha molto evoluto dal 0,7
creating-a-generic-scrapy-spider Nessuna risposta accettata, ancora parlando di parametri della shell di regolazione.

So che lo scrapy è utilizzato negli ambienti di produzione; e uno strumento come scrapyd mostra che ci sono sicuramente alcuni modi per gestire questi requisiti (non riesco a immaginare che le uova di scrapy scrapyd trattate siano generate a mano!)

Grazie mille per il vostro aiuto.

fonte

2012-10-21 arno

Scrapy vengono creati con il comando 'deploy'; forse puoi dare un'occhiata a [Django Dynamic Scraper] (https://github.com/holgerd77/django-dynamic-scraper) per suggerimenti su come integrare il controllo Spider Scrapy in Django. –

Hai guardato [scrapy tool] (http://doc.scrapy.org/en/latest/topics/commands.html) o il [progetto slybot] (https://github.com/scrapy/slybot) per ispirazione? – jah

La mia risposta http://stackoverflow.com/questions/9814827/creating-a-generic-scrapy-spider/13054768#13054768 potrebbe aiutare – djinn

Penso che avete bisogno di guardare a questo

http://django-dynamic-scraper.readthedocs.org/en/latest/

Questo fa in qualche modo simile ciò che si desidera. Usa anche il sedano di sheduling di compiti. Puoi vedere il codice per dare un'occhiata a quello che sta facendo.Penso che sarà facile se si modifica il suo codice per fare quello che vuoi

Ha anche una buona documentazione su come configurare l'interfaccia con Django

fonte

2013-01-25 05:17:11 user2134226

In un primo momento ho pensato che scrapyd è stato fatto per questo, ma dopo aver letto il documento, sembra che sia più un daemon in grado di gestire gli "spider pacchettizzati", alias "uova di carta straccia"; e che tutte le impostazioni (start_urls, allowed_domains, settings) devono ancora essere codificate nel "egg scrapy" stesso; quindi non sembra una soluzione alla mia domanda, a meno che non mi sia sfuggito qualcosa.

non sono d'accordo per la dichiarazione di cui sopra, start_urls non devono essere codificati che possono essere passati in modo dinamico alla classe, si dovrebbe essere in grado di passare come argomento come questo

http://localhost:6800/schedule.json -d project=myproject -d spider=somespider -d setting=DOWNLOAD_DELAY=2 -d arg1=val1

Oppure dovresti riuscire a recuperare gli URL da un database o da un file. Ho capito da un database come questo

class WikipediaSpider(BaseSpider): 
    name = 'wikipedia' 
    allowed_domains = ['wikipedia.com'] 
    start_urls = [] 

    def __init__(self, name=None, url=None, **kwargs): 
     item = MovieItem() 
     item['spider'] = self.name 
     # You can pass a specific url to retrieve 
     if url: 
      if name is not None: 
       self.name = name 
      elif not getattr(self, 'name', None): 
       raise ValueError("%s must have a name" % type(self).__name__) 
      self.__dict__.update(kwargs) 
      self.start_urls = [url] 
     else: 
      # If there is no specific URL get it from Database 
      wikiliks = # < -- CODE TO RETRIEVE THE LINKS FROM DB --> 
      if wikiliks == None: 
       print "**************************************" 
       print "No Links to Query" 
       print "**************************************" 
       return None 

      for link in wikiliks: 
       # SOME PROCESSING ON THE LINK GOES HERE 
       self.start_urls.append(urllib.unquote_plus(link[0])) 

    def parse(self, response): 
     hxs = HtmlXPathSelector(response) 
     # Remaining parse code goes here

fonte

2013-06-15 03:47:20

Questo è in realtà molto semplice!

from mypackage.spiders import MySpider 
from scrapy.crawler import CrawlerProcess 

results = [] 

class MyPipeline(object): 
    """ A custom pipeline that stores scrape results in 'results'""" 
    def process_item(self, item, spider): 
     results.append(dict(item)) 

process = CrawlerProcess({ 
    # An example of a custom setting 
    'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)', 
    'ITEM_PIPELINES': {'__main__.MyPipeline': 1}, # Hooking in our custom pipline above 
}) 

start_urls=[ 
    'http://example.com/page1', 
    'http://example.com/page2', 
] 
process.crawl(MySpider, start_urls=start_urls) 
process.start() # the script will block here until the crawling is finished 

# Do something with the results 
print results

fonte

2015-09-23 23:25:13 Humphrey

È anche possibile specificare allowed_domains in runtime? –

Per modificare le impostazioni di programmazione e l'esecuzione del raschietto all'interno di un app, ecco cosa ho ottenuto: uova

from scrapy.crawler import CrawlerProcess 
from myproject.spiders import MySpider 
from scrapy.utils.project import get_project_settings 

os.environ['SCRAPY_SETTINGS_MODULE'] = 'myproject.my_settings_module' 
scrapy_settings = get_project_settings() 
scrapy_settings.set('CUSTOM_PARAM', custom_vaule) 
scrapy_settings.set('ITEM_PIPELINES', {}) # don't write jsons or anything like that 
scrapy_settings.set('DOWNLOADER_MIDDLEWARES', { 
    'myproject.middlewares.SomeMiddleware': 100, 
}) 
process = CrawlerProcess(scrapy_settings) 
process.crawl(MySpider, start_urls=start_urls) 
process.start()

fonte

2016-02-04 21:22:38

Come configurare e lanciare un ragno Scrapy di programmazione (URL e impostazioni)

risposta

Problemi correlati