2012-01-29 12 views
7

Sto cercando di accedere a una pagina di Wikipedia in modo da ottenere un elenco di pagine, e ottengo il seguente errore:Impostazione "una stringa User-Agent informativo" in getURL

library(RCurl) 
u <- "http://en.wikipedia.org/w/index.php?title=Special%3APrefixIndex&prefix=tal&namespace=4" 
getURL(u) 
[1] "Scripts should use an informative User-Agent string with contact information, or they may be IP-blocked without notice.\n" 

spero di arrivare a quella pagina tramite l'API di Wikipedia, ma I am not sure it would work.

E la cosa è che le altre pagine vengono lette senza problemi, ad esempio:

u <- "http://en.wikipedia.org/wiki/Wikipedia:Talk" 
getURL(u) 

Qualche suggerimento?

Nota a margine: In generale mi sarebbe piuttosto di non raschiare pagine wiki e passare attraverso l'API, ma temo che queste pagine specifiche non sono ancora disponibili tramite l'API ...

risposta

13

Secondo the documentation of RCurl, è possibile specificare un'intestazione aggiuntiva aggiungendo un parametro httpheader:

getURL(u, httpheader = c('User-Agent' = "Informative string with your contact info")) 
+0

Perfetto, grazie! –

Problemi correlati