2016-03-16 20 views
5

Desidero rimuovere un sito Web https, ma non sono riuscito.Pacchetto "rvest" per sito web di scraping https con proxy

Qui è il mio codice:

require(rvest) 
url <- "https://www.sunnyplayer.com/de/" 
content <- read_html(url) 

Ma ho errore nella console- "Errore nella open.connection (x, "RB"): Timeout è stato raggiunto" Come posso risolvere questo problema?

+0

Questo codice viene eseguito senza errori. Il problema potrebbe essere specifico per il tuo proxy. –

+0

Quale impostazione ho bisogno in R per proxy? per favore aiutami –

+0

So solo che ha funzionato per me senza un proxy. Il tuo titolo indica che stai usando un proxy, quindi se questa è l'unica differenza tra il tuo setup e il mio, allora questo deve essere il problema. –

risposta

7

La stessa cosa mi succede su un proxy. Per aggirare questo problema, utilizzare download.file e specificare un percorso di download. È quindi possibile analizzare il file con read_html.

download.file(url, destfile = 'C://whatever.html') 
content <- read_html('C://whatever.html')