Sto cercando di estrarre i dati su posizioni di specie di piante invasive dal CABI invasive species compendium utilizzando il pacchetto rvest.Scraping dati da una tabella html
Dopo aver esaminato alcuni tutorial, ho capito che dovrei essere in grado di raschiare facilmente i dati dalle tabelle. Tuttavia, continuo a incontrare difficoltà.
Diciamo che desidero dati di posizione per la specie Brassica tournefortii. Dovrei essere in grado di utilizzare questo codice, che utilizza le tecniche outlined here per ottenere dettagli sui luoghi in cui è stata registrata la specie.
library(rvest)
isc<-read_html("http://www.cabi.org/isc/datasheet/50069")
isc %>%
html_node("#toDistributionTable td:nth-child(1)") %>%
html_text()
Tuttavia, l'esecuzione di questo codice ottengo l'errore
Error: No matches
Sono completamente nuovo per web scraping. Sto facendo qualcosa di terribilmente sbagliato?
Fantastico, grazie! Questo dovrebbe aiutarmi a fare un buon inizio nell'ottenere dati da quel sito. Come fai a ottenere le informazioni nella parte xpath della funzione xml_find_all? –
L'ho mappato dal percorso mostrato in Strumenti per sviluppatori dopo aver fatto clic con il pulsante destro del mouse e selezionato Ispeziona elemento su tale tabella. Potrei riuscire a rifarlo con i CSS, ma sapere un po 'di XPath può aiutare in alcune situazioni. – hrbrmstr