2014-11-25 14 views
6

Desidero utilizzare la funzione di Wordcloud per fare un cloud su dati di Twitter. Ho installato il pacchetto twitter e il lavoro con l'API. Faccio la seguente dopo.Wordcloud + errore di corpus in R

bigdata <- searchTwitter("#bigdata", n=20) 

bigdata_list <- sapply(bigdata, function(x) x$getText()) 
bigdata_corpus <- Corpus(VectorSource(bigdata_list)) 
bigdata_corpus <- tm_map(bigdata_corpus, content_transformer(tolower), lazy=TRUE) 
bigdata_corpus <- tm_map(bigdata_corpus, removePunctuation, lazy=TRUE) 
bigdata_corpus <- tm_map(bigdata_corpus, 
          function(x)removeWords(x,stopwords()), lazy=TRUE) 
wordcloud(bigdata_corpus) 

Questo produce il messaggio di errore per il comando Wordcloud:

Error in UseMethod("meta", x) : 
    no applicable method for 'meta' applied to an object of class "try-error" 
In addition: Warning messages: 
1: In mclapply(x$content[i], function(d) tm_reduce(d, x$lazy$maps)) : 
    all scheduled cores encountered errors in user code 
2: In mclapply(unname(content(x)), termFreq, control) : 
    all scheduled cores encountered errors in user code 

Ho provato diversi comandi corpus, ma cant sembrano per farlo bene. Qualche idea?

risposta

1

Si può provare questo:

library("tm") 
# Transform your corpus in a term document matrix 
bigdata_tdm <- as.matrix(TermDocumentMatrix(bigdata_corpus)) 
# Get the frequency by words 
bigdata_freq <- data.frame(Words = rownames(bigdata_tdm), Freq = rowSums(bigdata_tdm), stringsAsFactors = FALSE) 
# sort 
bigdata_freq <- bigdata_freq[order(bigdata_freq$Freq, decreasing = TRUE), ] 
# keep the 50 most frequent words 
bigdata_freq <- bigdata_freq[1:50, ] 

# Draw the wordcloud 
library("wordcloud") 
wordcloud(words = bigdata_freq$Words, freq = bigdata_freq$Freq) 

Con tm_0.6 e wordcloud_2.5 in entrambe le direzioni funziona.