Vorrei scaricare i contenuti di un sito web in cui gli URL sono costruitiutilizzando wget, ma ignorare parametri URL
http://www.example.com/level1/level2?option1=1&option2=2
all'interno dell'URL solo il http://www.example.com/level1/level2 è unico per ogni pagina, ei valori per opzione1 e l'opzione2 sta cambiando. In effetti, ogni pagina unica può avere centinaia di notazioni diverse a causa di queste variabili. Sto usando wget per recuperare tutti i contenuti del sito. A causa del problema, ho già scaricato più di 3 GB di dati. C'è un modo per dire a wget di ignorare tutto dietro il punto interrogativo dell'URL? Non riesco a trovarlo nelle pagine man.
Speriamo che l'URL senza parametro ti restituisca ancora qualcosa di utile. –
Lo fa. Non c'è differenza se c'è o non c'è nulla dietro il punto interrogativo. Sembra tracciare da dove viene il browser o così. – cootje
In base alla pagina man di wget, non esiste alcuna corrispondenza con le stringhe di query con wget in questo momento. Qualche motivo specifico per usare wget non è qualcosa di simile a scrapy o arricciatura con un po 'di script di shell? –