Tutto è nel titolo!Definisci directory di download per il selenio chromedriver con python
C'è un modo per definire la directory di download per selenio-cromato utilizzato con python?
Nonostante molte ricerche, non ho trovato nulla di conclusivo ... Come novizio, ho visto molte cose su "the desired_capabilities" o "the options" per Chromedriver ma nulla ha risolto il mio problema. .. (e ancora non so se lo farà!)
Per spiegare un po 'di più il mio problema: Ho un sacco di url per la scansione (200 000) e per ogni url un file da scaricare. Devo creare una tabella con l'url, le informazioni che ho scartato su di essa, e il nome del file che ho appena scaricato per ogni pagina web. Con il volume che devo trattare, ho creato thread che aprono più istanze di chromedriver per accelerare il trattamento. Il problema è che ogni file scaricato arriva nella stessa directory predefinita e non sono più in grado di collegare un file a un URL ... Quindi, l'idea è di creare una directory di download per ogni thread per gestirli uno da uno.
Se qualcuno ha la risposta alla mia domanda nel titolo O una soluzione per identificare il file scaricato e collegarlo con l'url corrente, sarò grato!
In generale vorrei suggerire di non scaricare le cose usando Chrome, di solito è un test mal congegnata che appena scaricato tutto in una cartella statica. Stai facendo qualcosa con i file scaricati? Leggi questo: http://ardesco.lazerycode.com/index.php/2012/07/how-to-download-files-with-selenium-and-why-you-shouldnt/ e poi questo http://www.blog.pythonlibrary.org/2012/06/07/python-101-how-to-download-a-file/ – Ardesco
hi Ciao e grazie per la risposta. In realtà non utilizzo Selenium per eseguire test ma davvero per automatizzare enormi download di file csv di dati per il post trattamento. Ho provato ad esplorare il modo urllib2, ma ho incontrato difficoltà difficili per l'autenticazione sul sito ... (probabilmente perché sono un novizio del fai-da-te della domenica e il selenio è stato l'oca dell'uovo d'oro quando l'ho trovato! ...) – matlabat