Ho un corpus di 26 file di testo semplice, ciascuno compreso tra 12 e 148kb, per un totale di 1,2 Mb. Sto usando R su un laptop Windows 7.Dimensione massima ragionevole per stemCompletamento in tm?
Ho eseguito tutte le normali operazioni di pulizia (stopword, stopword personalizzate, lettere minuscole, numeri) e voglio eseguire il completamento dello stelo. Sto usando il corpus originale come dizionario, come mostrato negli esempi. Ho provato un paio di semplici vettori per assicurarmi che avrebbe funzionato del tutto (con circa 5 termini) e lo ha fatto e molto rapidamente.
exchanger <- function(x) stemCompletion(x, budget.orig)
budget <- tm_map(budget, exchanger)
Funziona da ieri alle 16:00! In R Studio in diagnostica, il registro delle richieste mostra nuove richieste con diversi numeri di richiesta. Task Manager lo mostra usando un po 'di memoria, ma non una quantità pazzesca. Non voglio fermarlo, perché se è quasi arrivato? Qualche altra idea su come controllare i progressi - sfortunatamente è un corpus volatile? Idee su quanto dovrebbe durare? Ho pensato di usare il vettore dei nomi dtm come dizionario, tagliato al più frequente (o alto tf-idf), ma sono riluttante ad uccidere questo processo.
Questo è un normale computer portatile Windows 7 con molte altre funzionalità in esecuzione.
Questo corpus è troppo grande per stemCompletion? A parte il passaggio a Python, c'è un modo migliore per eseguire stemCompletion o lemmatize vice stem - la mia ricerca sul web non ha dato alcuna risposta.
grazie per questa risposta - non è comodo con i problemi con la fonte ... ma potrei inserire questi comandi in uno script nella finestra di script di RStudio? Immagino solo se inserisco l'intero sorgente, che è essenzialmente come modificare la sorgente e salvare? – ChristinaP
Hai esattamente ragione. Copia la funzione completa dall'origine in uno script separato e quindi apporta le tue modifiche. Ogni volta che è necessario utilizzarlo, caricare il pacchetto, quindi caricare la funzione personalizzata per sostituire ciò che è stato caricato dal pacchetto. – SchaunW