2009-06-01 14 views
5

Sto provando a scaricare un mirror statico di un wiki usando wget. Voglio solo l'ultima versione di ogni articolo (non la cronologia completa o diff tra le versioni). Sarebbe facile semplicemente scaricare l'intera cosa e cancellare le pagine non necessarie in un secondo momento, ma farlo impiegherebbe troppo tempo e metterà a dura prova il server.wget WIKI, non ottenere pagine diff (escludere dall'espressione regolare?)

Ci sono una serie di pagine che chiaramente non ho bisogno come ad esempio:?

WhoIsDoingWhat action = diff & date = 1184177979

C'è un modo per dire wget di non scaricare e recurse sugli URL che hanno 'action = diff' in loro? O altrimenti escludere gli URL che corrispondono ad alcune espressioni regolari?

risposta

3
-R '*action=diff*,*action=edit*' 
+0

Sembra che farlo scaricherà la pagina, la rifiuterà e quindi la eliminerà (invece di saltare per scaricarla del tutto). – stonea

+0

Anche se impedirà la ricorrenza nella pagina rifiutata. – stonea

+0

Non vedo alcuna prova di ciò. "L'opzione '--reject' funziona allo stesso modo di '--accept', solo la sua logica è inversa, Wget scaricherà tutti i file tranne quelli che corrispondono ai suffissi (o pattern) nell'elenco". (-R è lo stesso di --reject e --rejlist.) Sembra che affermi chiaramente che non scaricherà i pattern di corrispondenza. – chaos