2011-10-10 12 views
5

Ho un corpus di documenti e voglio rappresentare ciascun documento come un vettore. Fondamentalmente, il vettore avrebbe 1 per le parole che sono presenti all'interno di un documento e per altre parole (che sono presenti in altri documenti nel corpus e non in questo particolare documento) avrebbe uno 0. Come faccio a creare questo vettore per tutti i documenti in Weka?Come creare un sacco di parole usando Weka?

C'è un modo rapido per farlo utilizzando Weka? Voglio anche che Weka rimuova le stopword e quindi qualche pre-elaborazione, se possibile, prima che crei questo vettore.

Grazie Abhishek S

risposta

7

Volete il filtro StringToWordVector.

Dispone di opzioni per l'occorrenza e l'interruzione binaria, tra molte altre, come l'interruzione, il troncamento dell'elenco di parole, l'eliminazione di termini poco frequenti, il piegamento del caso.