2012-01-11 12 views
18

Ho il seguente script python e funziona magnificamente.Python segue i reindirizzamenti e poi scarica la pagina?

import urllib2 

url = 'http://abc.com' # write the url here 

usock = urllib2.urlopen(url) 
data = usock.read() 
usock.close() 

print data 

tuttavia, alcuni degli URL che ho fornito possono reindirizzare 2 o più volte. Come posso fare in modo che python attenda il completamento dei reindirizzamenti prima di caricare i dati. Per esempio quando si utilizza il codice precedente con

http://www.google.com/search?hl=en&q=KEYWORD&btnI=1 

che è l'equvilant di colpire il tasto fortunato im su una ricerca su Google, ottengo:

>>> url = 'http://www.google.com/search?hl=en&q=KEYWORD&btnI=1' 
>>> usick = urllib2.urlopen(url) 
Traceback (most recent call last): 
    File "<stdin>", line 1, in <module> 
    File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib2.py", line 126, in urlopen 
    return _opener.open(url, data, timeout) 
    File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib2.py", line 400, in open 
    response = meth(req, response) 
    File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib2.py", line 513, in http_response 
    'http', request, response, code, msg, hdrs) 
    File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib2.py", line 438, in error 
    return self._call_chain(*args) 
    File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib2.py", line 372, in _call_chain 
    result = func(*args) 
    File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/urllib2.py", line 521, in http_error_default 
    raise HTTPError(req.get_full_url(), code, msg, hdrs, fp) 
urllib2.HTTPError: HTTP Error 403: Forbidden 
>>> 

Ive ha provato la (url, i dati, timeout) tuttavia, non sono sicuro di cosa mettere lì.

EDIT: realtà ho scoperto che se io non reindirizzare e appena usato l'intestazione del primo collegamento, posso afferrare la posizione del prossimo reindirizzamento e utilizzarlo come il mio ultimo anello

+0

Conoscete 'HTTPRedirectHandler' – RanRag

+0

Non lo ero. L'ho solo cercato. Posso vedere come farlo NON seguire. Tuttavia, non posso forzarlo a seguire – Cripto

+0

So che è passato un po 'di tempo, ma riesci a scavare in profondità nella volta della memoria e dimmi come hai risolto questo problema? Grazie! – tmthyjames

risposta

15

Si potrebbe essere meglio con la libreria Le richieste che ha le API migliori per il controllo di reindirizzare la movimentazione:

http://docs.python-requests.org/en/latest/user/quickstart/#redirection-and-history

Requests:

http://pypi.python.org/pypi/requests/ (sostituzione urllib per gli esseri umani)

+0

Non era la risposta giusta, ma mi ha aiutato a trovare ciò di cui avevo bisogno. – Cripto

+3

@ user1048138: ti dispiacerebbe dirci cosa hai trovato per risolvere il tuo problema? –

+0

Quella caratteristica mi ha solo fatto impazzire. Inoltre, è importante notare che per altre richieste (come HEAD), è necessario impostare allow_redirects su True affinché funzioni. – halflings

-2

Ti assolutamente necessario fare così? Che ne dici di usare qualcosa come twill (http://twill.idyll.org/) - rende quello che vuoi fare molto facile (ed è Python).

Problemi correlati