Mi piacerebbe scrivere un semplice spider web o semplicemente usare wget
per scaricare i risultati pdf da Google Scholar. Sarebbe davvero un modo spiccio per ottenere documenti per la ricerca.Download di tutti i file PDF dai risultati di ricerca di google studioso utilizzando wget
Ho letto le pagine seguenti su StackOverflow:
Crawl website using wget and limit total number of crawled links
How do web spiders differ from Wget's spider?
Downloading all PDF files from a website
How to download all files (but not HTML) from a website using wget?
L'ultima pagina è probabilmente il più ispirato di tutti. Ho provato a utilizzare wget
come suggerito su this.
La mia pagina dei risultati di ricerca di Google Scholar è thus ma non è stato scaricato nulla.
Dato che il mio livello di comprensione dei webspider è minimo, cosa dovrei fare per renderlo possibile? Mi rendo conto che scrivere un ragno è forse molto impegnativo ed è un progetto che potrei non voler intraprendere. Se è possibile usare wget
, sarebbe assolutamente fantastico.
No, sfortunatamente la mia finestra di terminale si blocca e si spegne quando eseguo questo comando. Non sto eseguendo Mozilla 5.0 ... è firefox 15 .. quindi dovrei apportare alcune modifiche di conseguenza? Ho cambiato 'firefox 3.0.3' in' firefox 15', ma senza risultato. – drN
Potrebbe essere la continuazione della linea (\). Modificato per rimuoverli - riprova. L'agente utente può essere qualsiasi cosa tu voglia ... – dongle
funziona come un fascino! ':' – drN