Sto lavorando a un progetto per analizzare come vengono citati gli articoli del diario. Ho un grande file di nomi di articoli di riviste. Intendo trasmetterli a Google Scholar e vedere quante citazioni hanno ciascuno.Uso di tor e python per grattare Google Scholar
Ecco la strategia che sto seguendo:
Usa "scholar.py" da http://www.icir.org/christian/scholar.html. Questo è uno script python pre-scritto che ricerca google studioso e restituisce informazioni sul primo hit in formato CSV (incluso il numero di citazioni)
Google studioso ti blocca dopo un certo numero di ricerche (ho circa 3000 titoli di articoli per query). Ho scoperto che molte persone usano Tor (How to make urllib2 requests through Tor in Python? e Prevent Custom Web Crawler from being blocked) per risolvere questo problema. Tor è un servizio che ti dà un indirizzo IP casuale ogni pochi minuti.
Ho scholar.py e tor entrambi impostati e funzionanti correttamente. Non ho molta familiarità con Python o con la libreria urllib2 e mi chiedo quali modifiche siano necessarie per scholar.py in modo che le query vengano instradate attraverso Tor.
Sono anche disponibile a suggerimenti per un approccio più semplice (e potenzialmente considerevolmente diverso) per le query di massa di Google Scholar, se ne esiste una.
Grazie in anticipo
Il primo link non è più valido – chrisfs
Link rot, è per questo che risposte di solo collegamento fa schifo ... Dovrei includere le istruzioni nella risposta, purtroppo mi manca il tempo di farlo adesso, mi spiace. –
per il collegamento è stato eseguito il backup per ora – user3791372