scrapy: converti stringa html in oggetto HtmlResponse

Ho una stringa html che voglio convertire in scrapy HTML response object in modo da poter usare i selettori css e xpath, simile a response di scrapy. Come posso farlo?scrapy: converti stringa html in oggetto HtmlResponse

fonte

2014-12-05 yayu

Prima di tutto, se è per scopi di debug o di test, è possibile utilizzare il Scrapy shell:

$ cat index.html 
<div id="test"> 
    Test text 
</div> 

$ scrapy shell index.html 
>>> response.xpath('//div[@id="test"]/text()').extract()[0].strip() 
u'Test text'

ci sono different objects available in the shell durante la sessione, come response e request.

In alternativa, è possibile creare un'istanza di un HtmlResponse class e fornire la stringa HTML in body:

>>> from scrapy.http import HtmlResponse 
>>> response = HtmlResponse(url="my HTML string", body='<div id="test">Test text</div>') 
>>> response.xpath('//div[@id="test"]/text()').extract()[0].strip() 
u'Test text'

fonte

2014-12-05 20:04:18 alecxe

grazie alecxe, sto usando Selenio becuase di qualche ajaxiness. Voglio convertire driver.page_source nello stesso oggetto di resposne in modo che possa riutilizzare alcuni estrattori (usando selettori css e xpath) invece di dover ricorrere a lxml. Penso che la tua seconda opzione sia quella di cui ho bisogno. – yayu

@yayu quindi, probabilmente non è necessario creare una risposta HTML, ma piuttosto un 'Selettore', vedere http://stackoverflow.com/questions/18836286/scraping-with-scrapy-and-selenium e http: //stackoverflow.com/questions/17975471/selenium-with-scrapy-for-dynamic-page. Potrebbe aiutare. Grazie. – alecxe

grazie. Lo esaminerò. – yayu

scrapy: converti stringa html in oggetto HtmlResponse

risposta

Problemi correlati