Ho un corpus di documenti e voglio rappresentare ciascun documento come un vettore. Fondamentalmente, il vettore avrebbe 1 per le parole che sono presenti all'interno di un documento e per altre parole (che sono presenti in altri documenti nel corpus e non in questo particolare documento) avrebbe uno 0. Come faccio a creare questo vettore per tutti i documenti in Weka?Come creare un sacco di parole usando Weka?
C'è un modo rapido per farlo utilizzando Weka? Voglio anche che Weka rimuova le stopword e quindi qualche pre-elaborazione, se possibile, prima che crei questo vettore.
Grazie Abhishek S