Sto provando a scaricare un mirror statico di un wiki usando wget. Voglio solo l'ultima versione di ogni articolo (non la cronologia completa o diff tra le versioni). Sarebbe facile semplicemente scaricare l'intera cosa e cancellare le pagine non necessarie in un secondo momento, ma farlo impiegherebbe troppo tempo e metterà a dura prova il server.wget WIKI, non ottenere pagine diff (escludere dall'espressione regolare?)
Ci sono una serie di pagine che chiaramente non ho bisogno come ad esempio:?
WhoIsDoingWhat action = diff & date = 1184177979
C'è un modo per dire wget di non scaricare e recurse sugli URL che hanno 'action = diff' in loro? O altrimenti escludere gli URL che corrispondono ad alcune espressioni regolari?
Sembra che farlo scaricherà la pagina, la rifiuterà e quindi la eliminerà (invece di saltare per scaricarla del tutto). – stonea
Anche se impedirà la ricorrenza nella pagina rifiutata. – stonea
Non vedo alcuna prova di ciò. "L'opzione '--reject' funziona allo stesso modo di '--accept', solo la sua logica è inversa, Wget scaricherà tutti i file tranne quelli che corrispondono ai suffissi (o pattern) nell'elenco". (-R è lo stesso di --reject e --rejlist.) Sembra che affermi chiaramente che non scaricherà i pattern di corrispondenza. – chaos