Sono nuovo di scrapy e sto cercando di raschiare la pagina web del sito Ikea. La pagina di base con l'elenco delle posizioni dato here.Scrapy: Estrai link e testo
mio items.py del file è il seguente:
import scrapy
class IkeaItem(scrapy.Item):
name = scrapy.Field()
link = scrapy.Field()
E il ragno è il seguente:
import scrapy
from ikea.items import IkeaItem
class IkeaSpider(scrapy.Spider):
name = 'ikea'
allowed_domains = ['http://www.ikea.com/']
start_urls = ['http://www.ikea.com/']
def parse(self, response):
for sel in response.xpath('//tr/td/a'):
item = IkeaItem()
item['name'] = sel.xpath('a/text()').extract()
item['link'] = sel.xpath('a/@href').extract()
yield item
Sulla eseguendo il file Non ricevo alcun output. L'output del file JSON è qualcosa di simile:
[[{"link": [], "name": []}
L'output che sto cercando è il nome della località e il collegamento. Non sto ottenendo nulla. Dove sto andando male?
hai provato "ikea.com" come allowed_domains? – aberna
@aberna che differenza farà? Ci proverò APPENA POSSIBILE e nessuna differenza. Nessuna uscita –
Seguirà l'esempio di scrapy come nella documentazione (http://doc.scrapy.org/en/latest/topics/spiders.html) – aberna