2012-09-04 22 views
8

Mi piacerebbe scrivere un semplice spider web o semplicemente usare wget per scaricare i risultati pdf da Google Scholar. Sarebbe davvero un modo spiccio per ottenere documenti per la ricerca.Download di tutti i file PDF dai risultati di ricerca di google studioso utilizzando wget

Ho letto le pagine seguenti su StackOverflow:

Crawl website using wget and limit total number of crawled links

How do web spiders differ from Wget's spider?

Downloading all PDF files from a website

How to download all files (but not HTML) from a website using wget?

L'ultima pagina è probabilmente il più ispirato di tutti. Ho provato a utilizzare wget come suggerito su this.

La mia pagina dei risultati di ricerca di Google Scholar è thus ma non è stato scaricato nulla.

Dato che il mio livello di comprensione dei webspider è minimo, cosa dovrei fare per renderlo possibile? Mi rendo conto che scrivere un ragno è forse molto impegnativo ed è un progetto che potrei non voler intraprendere. Se è possibile usare wget, sarebbe assolutamente fantastico.

risposta

11
wget -e robots=off -H --user-agent="Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.3) Gecko/2008092416 Firefox/3.0.3" -r -l 1 -nd -A pdf http://scholar.google.com/scholar?q=filetype%3Apdf+liquid+films&btnG=&hl=en&as_sdt=0%2C23 

Alcune cose da notare:

  1. L'utilizzo di filetyle: pdf nella query di ricerca
  2. Un livello di ricorsione
  3. -A pdf solo per accettare i PDF
  4. -H per estendere gli host
  5. -e robot = spento e l'utilizzo di --user-agent garantirà risultati ottimali. Google Scholar rifiuta un agente utente vuoto e probabilmente i repository PDF non consentono il funzionamento dei robot.

La limitazione naturalmente è che questo colpirà solo la prima pagina dei risultati. Potresti espandere la profondità della ricorsione, ma questo si scatenerà e durerà per sempre. Raccomanderei di utilizzare una combinazione di qualcosa come Beautiful Soup e sottoprocessi wget, in modo da poter analizzare e attraversare strategicamente i risultati della ricerca.

+0

No, sfortunatamente la mia finestra di terminale si blocca e si spegne quando eseguo questo comando. Non sto eseguendo Mozilla 5.0 ... è firefox 15 .. quindi dovrei apportare alcune modifiche di conseguenza? Ho cambiato 'firefox 3.0.3' in' firefox 15', ma senza risultato. – drN

+0

Potrebbe essere la continuazione della linea (\). Modificato per rimuoverli - riprova. L'agente utente può essere qualsiasi cosa tu voglia ... – dongle

+0

funziona come un fascino! ':' – drN

Problemi correlati