principianti in R e text mining. Utilizzo del pacchetto TM attualmente.R text mining: combinazione di paragrafi uno dopo l'altro senza errori di mixaggio
Sto cercando di aggiungere i testi di due documenti diversi in un insieme di corpora. quando uso una dichiarazione come
c(corpus.doc[[1]],corpus.doc[[2]])
o la dichiarazione pasta
paste(corpus.doc[[1]],corpus.doc[[2]])
ho un risultato di testi combinati per ogni linea.
Per esempio: se
> corpus.doc[[1]]
He visits very often
and
sometimes more
> corpus.doc[[2]])
She also
stays
quello che ottengo con queste affermazioni è qualcosa come
He visits very often She also
and stays
sometimes more
Come posso impedire che invece ottiene
He visits very often
and
sometimes more
She also
stays
O c'è un modo semplice per combinare i documenti nel pacchetto R tm? Grazie in anticipo!
Ulteriori informazioni
Quando uso
un < - c (corpus.doc [[1]], corpus.doc [[2]], recursive = TRUE)
Capisco che diventa un corpus con due documenti, quindi i testi di ciascuno di questi documenti non sono ancora combinati. Mi piacerebbe che che
a[[1]]
mi dà il testo combinato di corpus.doc [[1]] e corpus.doc [[2]].
str(corpus.doc)
mostra qualcosa di simile
List of 4270
$ CREC-2011-01-05-pt1-PgE1-2.htm :Classes 'PlainTextDocument', 'TextDocument',
'character' atomic [1:74] html head titlecongression record volume issue
head ...
.. ..- attr(*, "Author")= chr(0)
.. ..- attr(*, "DateTimeStamp")= POSIXlt[1:1], format: "2009-01-17 15:45:25"
.. ..- attr(*, "Description")= chr(0)
. . ..- attr(, "Heading")= chr(0) .. ..- attr(, "ID")= chr "CREC-2011-01-05-pt1-PgE1- 2.htm"
e mantiene in corso ...
Perché non utilizzare un editor di testo per copiare e incollare il testo di un documento nell'altro? Se il tuo esempio i due documenti sono "PlainTextDocument" e "TextDocument", quindi non dovrebbe esserci alcun problema a modificarli in un editor di testo. Quindi usa quel nuovo doc come input per il pacchetto tm. Non una soluzione R pura, ma veloce se hai solo un piccolo numero di documenti. – Ben
Sì ... lo so :) È solo che ci sono più di 7000 di questi file (sono file vocali), e voglio combinare i testi in base al fatto che siano dello stesso oratore. – appletree