Per chi conosce wget
, ha un'opzione --spider
, che consente di verificare se un collegamento è rotto o meno, senza effettivamente scaricare la pagina Web. Mi piacerebbe fare la stessa cosa in Python. Il mio problema è che ho una lista di 100.000 link che voglio controllare, al massimo una volta al giorno, e almeno una volta alla settimana. In ogni caso questo genererà molto traffico non necessario.Verifica se un collegamento è morto o non si utilizza Python senza scaricare la pagina web
Per quanto ho capito dallo urllib2.urlopen()
documentation, non scarica la pagina ma solo la meta-informazione. È corretto? O c'è un altro modo per farlo in un modo piacevole?
migliore,
Troels
A destra, HEAD otterrà le intestazioni (incluso lo stato HTTP) senza scaricare il corpo del messaggio. Alcuni siti sono (mal) configurati per inviare "non trovato"/404 pagine con uno stato di 200, però, quindi sarebbe difficile individuare quelle situazioni. – JAL
Per quanto posso dire questo è ciò che fa wget -spider. –
Grazie mille per la soluzione così come i pensieri su siti mal configurati (vale la pena tenere a mente!) - questo è proprio quello di cui ho bisogno :) – Troels