Sto cercando di risolvere un semplice problema di classificazione.Classificare i dati usando Apache Mahout
Il problema:
Ho un set di testo e devo categorizzarli in base al contenuto.
Soluzione utilizzando Mahout:
Ho capito che devo convertire l'input in un file di sequenza per generare il modello. Sì, sono stato in grado di farlo. Ora, come classifico i miei dati di test? L'esempio 20News verifica solo la correttezza. Ma, voglio fare la classificazione attuale.
Non sono sicuro se è necessario scrivere codice o utilizzare alcune classi esistenti disponibili per classificare il set di test.?
IMO, le sezioni relative alla classificazione del libro potrebbe essere migliorata. Le sezioni sulla classificazione sono prolisse, poco chiare e, spesso, non sequitur. Potrebbero esserci più esempi di codice java e meno esempi di shell bash. La sezione di classificazione potrebbe essere migliore se fosse scritta più come i capitoli introduttivi: Mostra il formato per i file di classificazione, come leggerli, come caricarli nel tuo classificatore, una volta addestrato, come usare il classificatore per classificare un nuovo campione. –
Desidero che Mahout abbia una documentazione migliore e migliore. Le persone esperte nell'apprendimento automatico hanno difficoltà a comprendere la struttura della pipeline di elaborazione e l'architettura del codice. Persino i javadoc usano una terminologia inappropriata (setGramSize dovrebbe essere setNGramSize) la piccola semantica fa una ENORME differenza nella comprensione di concetti e codice. –