2015-10-23 6 views
7

Sto provando a racimolare il contenuto da http://google.com. viene visualizzato il messaggio di errore.Errore di rvest in open.connection (x, "rb"): Timeout raggiunto

library(rvest) 
html("http://google.com") 

Error in open.connection (x, "RB"):
Timeout è stato raggiunto Inoltre: messaggio
Attenzione: 'html' è deprecato.
Utilizzare invece "read_html".
vedere la Guida ("deprecato")

dal momento che sto utilizzando la rete aziendale, questo forse causato da firewall o un proxy. Provo a usare set_config, ma non funziona.

+0

hai anche provato il comando 'read_html', dal momento che il messaggio di errore dice' html' è deprecato ... Questo potrebbe non risolvere il tuo problema ma forse l'output è più utile ... – drmariod

+0

sì, il messaggio è: Errore in open.connection (x, "rb"): Timeout è stato raggiunto Inoltre: Messaggio di avviso: chiusura connessione inutilizzata 3 (http://google.com) – user3267649

+0

in realtà, questo codice funziona correttamente nella mia rete domestica. ma quando provo a utilizzare questo codice nella rete aziendale, viene visualizzato l'errore. – user3267649

risposta

3

Questo è probabilmente un problema con la chiamata a read_html (o html nel tuo caso) che non si identifica correttamente con il server dal quale tenta di recuperare il contenuto, che è il comportamento predefinito. Usando il curl, aggiungi un interprete all'argomento handle di read_html per far sì che il tuo raschietto si identifichi.

library(rvest) 
library(curl) 
read_html(curl('http://google.com', handle = curl::new_handle("useragent" = "Mozilla/5.0"))) 
7

Ho incontrato lo stesso problema quando si lavora Error in open.connection(x, “rb”) : Timeout was reached dietro un proxy nella rete aziendale.

Ecco cosa ha funzionato per me,

library(rvest) 
url = "http://google.com" 
download.file(url, destfile = "scrapedpage.html", quiet=TRUE) 
content <- read_html("scrapedpage.html") 

credito: https://stackoverflow.com/a/38463559

0

mi sono imbattuto in questo problema perché il mio VPN è stato acceso. Subito dopo averlo spento, ho riprovato e ho risolto il problema.

Problemi correlati