Ho installato uno CountVectorizer
in alcuni documenti in scikit-learn
. Mi piacerebbe vedere tutti i termini e la loro frequenza corrispondente nel testo corpus, al fine di selezionare le parole di stop. Per esempioElencare le parole in un vocabolario in base all'occorrenza in un corpo di testo, Scikit-Learn
'and' 123 times, 'to' 100 times, 'for' 90 times, ... and so on
C'è qualche funzione built-in per questo?
Grazie! Ma non sono ordinati, ma sono riuscito a farlo: per la tupla in ordine (occ_list, key = lambda idx: idx [1]): print tuple [0] + '' + str (tuple [1]). Il problema è che i caratteri åäö non vengono stampati. Ho impostato la codifica su utf8. – user1506145
Sei sicuro che get_feature_names() avrà i termini ordinati in base al loro indice nella matrice frequenza-termine? Ho scoperto che cv.get_feature_names() e cv.vocabulary_.keys() non hanno lo stesso ordine. – user1506145
@ user1506145: 'dict.keys' non garantisce alcun ordine; questo è esattamente il motivo per cui esiste get_feature_names'. –