2012-02-14 12 views
8

Vorrei scaricare un file PDF da Internet e salvarlo nell'HD locale. Dopo il download, il file di output pdf contiene molte pagine vuote. Cosa posso fare per risolverlo?Problemi con il download di file pdf utilizzando R

Esempio:

require(XML) 
url <- ('http://cran.r-project.org/doc/manuals/R-intro.pdf') 
download.file(url, 'introductionToR.pdf') 

Grazie in anticipo.

+2

ho copiato e incollato il codice e ottenuto le pagine 109 documentano come dovrebbe essere. Forse un problema con il tuo visualizzatore di PDF? – vaettchen

+0

funziona bene per me. (R 2.14.1, Linux - potresti pubblicare i risultati di 'sessionInfo()'? Sembra probabile che sia un visualizzatore o qualche altro problema del sistema operativo, poiché questa è una funzionalità piuttosto di base ...) A proposito, non si 'necessario il pacchetto 'XML' per questo -' download.file' è parte della base R. –

+0

PS. Immagino che tu sia su Windows: '? Download.file' dice:" Il codice scritto per scaricare i file binari deve usare 'mode = "wb"', ma i problemi incontrati da un trasferimento di testo saranno visibili solo su Windows. " –

risposta

23

Prova con wb-mode in questo modo:

download.file(url, 'introductionToR.pdf', mode="wb").

Per me funziona così.

+1

Questo è tutto! mode = 'wb' ha risolto il problema. Grazie! – Diogo

+1

questa risposta mi ha fatto risparmiare un sacco di lavoro! (su sistema operativo win) – userJT

+1

Per aggiungere una spiegazione, 'mode =" wb "' indica alla funzione di trattare il file come binario anziché come testo. – Matt

-1

è possibile scaricare i file PDF ed esportare le tabelle come data.frame utilizzando tabulizer pacchetto

https://ropensci.org/tutorials/tabulizer_tutorial.html

install.packages("devtools") 
# on 64-bit Windows 
ghit::install_github(c("ropenscilabs/tabulizerjars", "ropenscilabs/tabulizer"), INSTALL_opts = "--no-multiarch") 
# elsewhere 
ghit::install_github(c("ropenscilabs/tabulizerjars", "ropenscilabs/tabulizer")) 

library(tabulizer) 

f2 <- "https://github.com/leeper/tabulizer/raw/master/inst/examples/data.pdf" 
extract_tables(f2, pages = 1, method = "data.frame") 
Problemi correlati