2009-12-28 21 views
8

Sto tentando di utilizzare httrack (http://www.httrack.com/) per scaricare una singola pagina, non l'intero sito. Ad esempio, quando si utilizza httrack per scaricare www.google.com, è necessario scaricare solo l'html disponibile su www.google.com insieme a tutti i fogli di stile, immagini e javascript e non seguire alcun collegamento a images.google.com, labs.google.com o www.google.com/subdir/ ecc.pagina singola mirror con httrack

Ho provato l'opzione -w ma ciò non ha fatto alcuna differenza.

Quale sarebbe il comando giusto?

EDIT

Ho provato ad utilizzare httrack "http://www.google.com/" -O "./www.google.com" "http://www.google.com/" -v -s0 --depth=1 ma poi è abituato copiare le immagini.

Quello che voglio in pratica è scaricare il file di indice di quel dominio insieme a tutti gli asset, ma non il contenuto di nessun link esterno o interno.

risposta

6

Puoi usare wget invece di httrack? wget -p scaricherà una singola pagina e tutti i suoi "prerequisiti" (immagini, fogli di stile).

+1

wget sarebbe la mia soluzione alternativa se httrack non può fare il lavoro. – Max

+0

la domanda su 'httrack', quindi rimani in pista. wget non esegue JS – Toolkit

+0

'wget' fallisce se le risorse hanno querystring. Scarica i file con la stessa querystring. –

0

Lo scopo di HTTTrack è seguire i collegamenti. Prova a impostare --ext-depth=0.

1

Guardando l'esempio:

httrack "http://www.all.net/" -O "/tmp/www.all.net" "+*.all.net/*" -v 

L'ultima parte è una regex. Basta fare una regex completamente corrispondente.

httrack "http://www.google.com.au/" -O "/tmp/www.google.com.au" "+*.google.com.au/*" -v ---depth=2 --ext-depth=2 

Ho dovuto localizzare, altrimenti ottengo una pagina di reindirizzamento. Dovresti localizzare a qualunque google ti venga indirizzato.

+0

che ha aiutato, ma non era giusto. Potresti vedere la mia modifica? – Max

+0

Sembra copiare le immagini e il js. – torger

3
httrack "http://www.google.com/" -O "./www.google.com" "http://www.google.com/" -v -s0 --depth=1 -n 

-n l'opzione (o --near) consente di scaricare immagini su una pagina Web indipendentemente dalla posizione in cui si trova.

Le immagini si trovano in google.com/foo/bar/logo.png. come, si utilizza S0 (rimanere sulla stessa directory), non scaricare l'immagine se non si specifica --near

2
  • Fare clic su "Imposta opzioni"
  • Vai alla scheda "Limiti"
  • impostare "profondità esterna massima" a 0

copy one page only with httrack

Problemi correlati