pagina singola mirror con httrack

Sto tentando di utilizzare httrack (http://www.httrack.com/) per scaricare una singola pagina, non l'intero sito. Ad esempio, quando si utilizza httrack per scaricare www.google.com, è necessario scaricare solo l'html disponibile su www.google.com insieme a tutti i fogli di stile, immagini e javascript e non seguire alcun collegamento a images.google.com, labs.google.com o www.google.com/subdir/ ecc.pagina singola mirror con httrack

Ho provato l'opzione -w ma ciò non ha fatto alcuna differenza.

Quale sarebbe il comando giusto?

EDIT

Ho provato ad utilizzare httrack "http://www.google.com/" -O "./www.google.com" "http://www.google.com/" -v -s0 --depth=1 ma poi è abituato copiare le immagini.

Quello che voglio in pratica è scaricare il file di indice di quel dominio insieme a tutti gli asset, ma non il contenuto di nessun link esterno o interno.

fonte

2009-12-28 Max

Puoi usare wget invece di httrack? wget -p scaricherà una singola pagina e tutti i suoi "prerequisiti" (immagini, fogli di stile).

fonte

2009-12-28 12:57:44

wget sarebbe la mia soluzione alternativa se httrack non può fare il lavoro. – Max

la domanda su 'httrack', quindi rimani in pista. wget non esegue JS – Toolkit

'wget' fallisce se le risorse hanno querystring. Scarica i file con la stessa querystring. –

Lo scopo di HTTTrack è seguire i collegamenti. Prova a impostare --ext-depth=0.

fonte

2009-12-28 08:01:29

Guardando l'esempio:

httrack "http://www.all.net/" -O "/tmp/www.all.net" "+*.all.net/*" -v

L'ultima parte è una regex. Basta fare una regex completamente corrispondente.

httrack "http://www.google.com.au/" -O "/tmp/www.google.com.au" "+*.google.com.au/*" -v ---depth=2 --ext-depth=2

Ho dovuto localizzare, altrimenti ottengo una pagina di reindirizzamento. Dovresti localizzare a qualunque google ti venga indirizzato.

fonte

2009-12-28 08:03:22 torger

che ha aiutato, ma non era giusto. Potresti vedere la mia modifica? – Max

Sembra copiare le immagini e il js. – torger

httrack "http://www.google.com/" -O "./www.google.com" "http://www.google.com/" -v -s0 --depth=1 -n

-n l'opzione (o --near) consente di scaricare immagini su una pagina Web indipendentemente dalla posizione in cui si trova.

Le immagini si trovano in google.com/foo/bar/logo.png. come, si utilizza S0 (rimanere sulla stessa directory), non scaricare l'immagine se non si specifica --near

fonte

2015-01-19 22:00:49

Fare clic su "Imposta opzioni"
Vai alla scheda "Limiti"
impostare "profondità esterna massima" a 0

fonte

2017-05-05 13:21:40

pagina singola mirror con httrack

risposta

Problemi correlati