Prima di creare una soluzione completa per il mio problema utilizzando Scrapy sto postando una versione semplicistica di ciò che voglio fare:XHR richiesta URL dice non esiste quando si tenta di analizzare il suo contenuto
import requests
url = 'http://www.whoscored.com/stageplayerstatfeed/?field=1&isAscending=false&orderBy=Rating&playerId=-1&stageId=9155&teamId=32"'
params = {'d': date.strftime('%Y%m'), 'isAggregate': 'false'}
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.125 Safari/537.36'}
response = requests.get(url, params=params, headers=headers)
fixtures = response.body
#fixtures = literal_eval(response.content)
print fixtures
Questo codice è dicendo che l'URL di cui sopra non esiste. L'URL si riferisce a una richiesta XHR che viene presentata quando si alterna dal 'complesso' alla scheda 'Home' della tabella principale in questa pagina:
http://www.whoscored.com/Teams/32/
Se si attiva la registrazione XHR all'interno della console di Google Developer Strumenti è possibile visualizzare sia la richiesta XHR che la risposta inviata dal server sotto forma di dizionario (che è il formato previsto).
Qualcuno può dirmi perché il codice sopra riportato non restituisce i dati che mi sarei aspettato di vedere?
Grazie
grazie per questo, che ha lavorato come volevo che. non mi ero reso conto che dovevo specificare le parti dell'URL dopo l'indirizzo principale come parametri specifici piuttosto che come parte dell'URL come vengono visualizzati nella console. inoltre, potresti spiegare quali sono le tre righe dopo "User-Agent" all'interno delle "intestazioni"? grazie ... – gdogg371
@ user3045351 sicuro, quelle sono le intestazioni che sono state inviate dal browser durante l'ispezione. Puoi provare a rimuoverli uno per uno e vedere se il codice si rompe: penso che almeno alcuni di essi non siano realmente necessari. Grazie. – alecxe