Ad esempio, ho avuto un sito "www.example.com"
In realtà voglio raschiare l'html di questo sito salvando sul sistema locale. così per il test ho salvato la pagina sul mio desktop come example.html
scraping il file con html salvato nel sistema locale
Ora che avevo scritto il codice di ragno per questo come di seguito
class ExampleSpider(BaseSpider):
name = "example"
start_urls = ["example.html"]
def parse(self, response):
print response
hxs = HtmlXPathSelector(response)
Ma quando ho eseguito il codice di cui sopra sto ottenendo questo errore, come di seguito
ValueError: Missing scheme in request url: example.html
Infine la mia intensione è quella di raschiare il file example.html
che consiste di codice html www.example.com
salvato nel mio sistema locale
uno può suggerire su come assegnare il file example.html in start_urls
grazie in anticipo
È possibile abilitare il middleware HTTP Cache che verrà salvato sul disco rigido. Puoi fondamentalmente riprodurre una precedente esecuzione di scrap, a seconda del timeout impostato per il middleware di HTTP Cache. –
@Sjaak Trekhaak: Grazie per la tua risposta, puoi darmi un esempio, in modo che sia più utile –
non sono sicuro, ma puoi provare: 'start_urls = [" file: /// home/local/cname/username/project/scrapy_project_modules/example/exampl e.html "]' – warvariuc