come @richiemorrisroe ho trovato questo scarsamente documentata Ecco come ho il mio testo da utilizzare con il pacchetto tm e rendere la matrice termine documento:
library(tm) #load text mining library
setwd('F:/My Documents/My texts') #sets R's working directory to near where my files are
a <-Corpus(DirSource("/My Documents/My texts"), readerControl = list(language="lat")) #specifies the exact folder where my text file(s) is for analysis with tm.
summary(a) #check what went in
a <- tm_map(a, removeNumbers)
a <- tm_map(a, removePunctuation)
a <- tm_map(a , stripWhitespace)
a <- tm_map(a, tolower)
a <- tm_map(a, removeWords, stopwords("english")) # this stopword file is at C:\Users\[username]\Documents\R\win-library\2.13\tm\stopwords
a <- tm_map(a, stemDocument, language = "english")
adtm <-DocumentTermMatrix(a)
adtm <- removeSparseTerms(adtm, 0.75)
in questo caso non è necessario specificare il nome esatto del file. Fintanto che è l'unico in t La directory di cui alla riga 3, verrà utilizzata dalle funzioni tm. Lo faccio in questo modo perché non ho avuto alcun successo nello specificare il nome del file nella riga 3.
Se qualcuno può suggerire come ottenere il testo nel pacchetto lda sarei molto grato. Non sono stato in grado di farlo.
Ho appena scoperto che la funzione stemDocument non sembra funzionare a meno che non venga specificata la lingua, quindi ho modificato il mio codice sopra per includerlo. – Ben