Dati di modellazione argomento argomento LDA

Sono nuovo in Python. Ho appena iniziato a lavorare su un progetto per utilizzare la modellazione dell'argomento LDA sui tweet. Sto cercando il seguente codice:Dati di modellazione argomento argomento LDA

Questo esempio utilizza un set di dati online. Ho un file CSV che include i tweet che ho bisogno di usare. Qualcuno può dirmi come posso usare il mio file locale? Come dovrei creare il mio vocabolario e titoli?

Non sono riuscito a trovare un tutorial che spiega come preparare i materiali per la LDA. Tutti credono che tu sappia già come farlo.

from __future__ import division, print_function 
 

 
import numpy as np 
 
import lda 
 
import lda.datasets 
 

 

 
# document-term matrix 
 

 
X = lda.datasets.load_reuters() 
 
print("type(X): {}".format(type(X))) 
 
print("shape: {}\n".format(X.shape)) 
 

 
# the vocab 
 
vocab = lda.datasets.load_reuters_vocab() 
 
print("type(vocab): {}".format(type(vocab))) 
 
print("len(vocab): {}\n".format(len(vocab))) 
 

 
# titles for each story 
 
titles = lda.datasets.load_reuters_titles() 
 
print("type(titles): {}".format(type(titles))) 
 
print("len(titles): {}\n".format(len(titles))) 
 

 

 
doc_id = 0 
 
word_id = 3117 
 

 
print("doc id: {} word id: {}".format(doc_id, word_id)) 
 
print("-- count: {}".format(X[doc_id, word_id])) 
 
print("-- word : {}".format(vocab[word_id])) 
 
print("-- doc : {}".format(titles[doc_id])) 
 

 

 
model = lda.LDA(n_topics=20, n_iter=500, random_state=1) 
 
model.fit(X) 
 

 

 
topic_word = model.topic_word_ 
 
print("type(topic_word): {}".format(type(topic_word))) 
 
print("shape: {}".format(topic_word.shape)) 
 

 

 
for n in range(5): 
 
    sum_pr = sum(topic_word[n,:]) 
 
    print("topic: {} sum: {}".format(n, sum_pr)) 
 

 

 
n = 5 
 
for i, topic_dist in enumerate(topic_word): 
 
    topic_words = np.array(vocab)[np.argsort(topic_dist)][:-(n+1):-1] 
 
    print('*Topic {}\n- {}'.format(i, ' '.join(topic_words))) 
 

 

 
doc_topic = model.doc_topic_ 
 
print("type(doc_topic): {}".format(type(doc_topic))) 
 
print("shape: {}".format(doc_topic.shape))

fonte

2015-08-17 Robbert

So che questo arriva un po 'tardi, ma spero che helps.You in primo luogo devono capire che LDA è applicabile (documento Term Matrix) solo sul DTM. Quindi, vi propongo di eseguire le seguenti operazioni:

Caricare il file CSV
Estrarre i tweets necessarie dal file
Pulire i dati
Creare un dizionario contenente ogni parola del corpus generato
costruire una struttura TDM
Montare la struttura per il file di dati
Ottenere il vocabolario - le caratteristiche del TDM (parole)
continuare a utilizzare il codice di cui sopra

Qui, in grado di fornire il codice per aiutarti a iniziare -

token_dict = {} 

for i in range(len(txt1)): 
    token_dict[i] = txt1[i] 

len(token_dict) 


print("\n Build DTM") 
%time tf = CountVectorizer(stop_words='english') 

print("\n Fit DTM") 
%time tfs1 = tf.fit_transform(token_dict.values()) 

# set the number of topics to look for 
num = 8 

model = lda.LDA(n_topics=num, n_iter=500, random_state=1) 

# we fit the DTM not the TFIDF to LDA 
print("\n Fit LDA to data set") 
%time model.fit_transform(tfs1) 

print("\n Obtain the words with high probabilities") 
%time topic_word = model.topic_word_ # model.components_ also works 

print("\n Obtain the feature names") 
%time vocab = tf.get_feature_names()

fonte

2015-10-09 02:22:01 vsdaking

Dati di modellazione argomento argomento LDA

risposta

Problemi correlati