2013-06-27 5 views
8

Cerco di eseguire la ricerca per indicizzazione di tutti i collegamenti di un sitemap.xml per memorizzare nuovamente nella cache un sito Web. Ma l'opzione ricorsiva di wget non funziona, ottengo solo come risposta:collegamenti di ricerca per indicizzazione di sitemap.xml tramite il comando wget

Il file remoto esiste ma non contiene alcun collegamento, non il recupero.

Ma di sicuro il sitemap.xml è pieno di collegamenti "http: // ...".

ho provato quasi ogni possibilità di wget, ma niente ha funzionato per me:

wget -r --mirror http://mysite.com/sitemap.xml 

Qualcuno sa come aprire tutti i link all'interno di un sito web sitemap.xml?

Grazie, Dominic

risposta

10

Sembra che wget non può analizzare XML. Quindi, dovrai estrarre i collegamenti manualmente. Si potrebbe fare qualcosa del genere:

wget --quiet http://www.mysite.com/sitemap.xml --output-document - | egrep -o "https?://[^<]+" | wget -i - 

Ho imparato questo trucco here.

+1

Come posso impostare ogni nome di file html scaricato sul titolo della pagina? In questo momento tutto è solo index.html, index.html.1, index.html.2 ecc. – user2028856

+0

vorrebbe vedere un'elaborazione su questo che conti per molti bambini nella struttura del file xml ... chiunque? Questo è carino però! Grazie! – lcm

+0

Ho la sitemap in formato gz, come dovrei visitare gli URL da quello. – StarWars

Problemi correlati