Ho il seguente script python e funziona magnificamente.Python segue i reindirizzamenti e poi scarica la pagina?
import urllib2
url = 'http://abc.com' # write the url here
usock = urllib2.urlopen(url)
data = usock.read()
usock.close()
print data
tuttavia, alcuni degli URL che ho fornito possono reindirizzare 2 o più volte. Come posso fare in modo che python attenda il completamento dei reindirizzamenti prima di caricare i dati. Per esempio quando si utilizza il codice precedente con
http://www.google.com/search?hl=en&q=KEYWORD&btnI=1
che è l'equvilant di colpire il tasto fortunato im su una ricerca su Google, ottengo:
>>> url = 'http://www.google.com/search?hl=en&q=KEYWORD&btnI=1'
>>> usick = urllib2.urlopen(url)
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib2.py", line 126, in urlopen
return _opener.open(url, data, timeout)
File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib2.py", line 400, in open
response = meth(req, response)
File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib2.py", line 513, in http_response
'http', request, response, code, msg, hdrs)
File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib2.py", line 438, in error
return self._call_chain(*args)
File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib2.py", line 372, in _call_chain
result = func(*args)
File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib2.py", line 521, in http_error_default
raise HTTPError(req.get_full_url(), code, msg, hdrs, fp)
urllib2.HTTPError: HTTP Error 403: Forbidden
>>>
Ive ha provato la (url, i dati, timeout) tuttavia, non sono sicuro di cosa mettere lì.
EDIT: realtà ho scoperto che se io non reindirizzare e appena usato l'intestazione del primo collegamento, posso afferrare la posizione del prossimo reindirizzamento e utilizzarlo come il mio ultimo anello
Conoscete 'HTTPRedirectHandler' – RanRag
Non lo ero. L'ho solo cercato. Posso vedere come farlo NON seguire. Tuttavia, non posso forzarlo a seguire – Cripto
So che è passato un po 'di tempo, ma riesci a scavare in profondità nella volta della memoria e dimmi come hai risolto questo problema? Grazie! – tmthyjames