2015-08-17 11 views
9

Ho creato un progetto Scrapy con diversi spider per eseguire la scansione di alcuni siti Web. Ora voglio usare TOR per:Scrapy with TOR (Windows)

  1. Nascondere il mio ip dai server sottoposti a ricerca per indicizzazione;
  2. Associare le mie richieste a diversi IP, simulando gli accessi da utenti diversi.

Ho letto alcune informazioni su questo, per esempio: using tor with scrapy framework, How to connect to https site with Scrapy via Polipo over TOR?

Le risposte da questi collegamenti non sono stati utili a me. Quali sono i passi che dovrei fare per far funzionare correttamente Scrapy con TOR?

EDIT 1:

Considerando risposta 1, ho iniziato con l'installazione di Tor. Mentre sto usando Windows ho scaricato il pacchetto TOR Expert (https://www.torproject.org/dist/torbrowser/5.0.1/tor-win32-0.2.6.10.zip) e ho letto il capitolo su come configurare TOR come relè (https://www.torproject.org/docs/tor-doc-windows.html.en). Purtroppo ci sono poche informazioni su come farlo su Windows. Se decomprimo l'archivio scaricato ed eseguo il file Tor \ Tor.exe non succede nulla. Tuttavia, posso vedere nel Task Manager che viene creato un nuovo processo. Non so quale sia il modo migliore per procedere da qui.

+1

Cosa hai già raggiunto? Qual è il tuo problema? Modifica la tua domanda e spiegaci queste informazioni per consentirci di essere in grado di aiutarti. – GHajba

+0

questo progetto scrapy su github spiega come rottamare anonymoulsy: https://github.com/WiliTest/Anonymous-scrapping-Scrapy-Tor-Privoxy-UserAgent –

risposta

3

fornire spiegazioni dettagliate passo-passo è qui http://blog.privatenode.in/torifying-scrapy-project-on-ubuntu/

passi La base ci sono:

  1. Installare Tor e Privoxy (per Linux Questo potrebbe richiedere per aggiungere un repository).
  2. Configurare Polipo per parlare con TOR utilizzando SOCK Connection (vedere il collegamento sopra).
  3. Creare un middleware personalizzato per usare Tor come proxy http e per cambiare in modo casuale l'agente utente Scrapy
  4. a sopprimere avvertimento ammortamenti dall'alto esempio, scrivere 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None, invece di 'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware': None,

Qual è il tuo Szenario ? Hai mai pensato di noleggiare Proxy Server?

+1

Grazie fmp per questo passo dopo passo. Ho modificato la mia domanda (EDIT 1 tag) considerando la tua risposta. Informazioni sulla tua ultima domanda "Hai mai pensato di noleggiare Proxy Server?" Perché devo noleggiare alcuni server proxy se sto reindirizzando il mio traffico sporco con TOR? – supertreta

+0

Mi dispiace, non corro sotto windows. Non è necessario noleggiare proxy, è un'opzione per la domanda iniziale nascondere il proprio IP "reale" (dietro un server proxy) e associare le richieste a diversi IP (ad esempio a quelli del server proxy). – fmp