2012-03-04 9 views
7

Ho un grande numero (100-150) di piccoli dataset (circa 1 kbyte). Chiameremo questi set di dati 'buoni'. Ho anche un numero simile di set di dati "cattivi".Estrazione di associazioni con un numero elevato di piccoli set di dati

Ora sto cercando software (o forse algoritmi) per trovare le regole per ciò che costituisce un set di dati "buono" rispetto a un set di dati "cattivo".

La cosa importante qui è la capacità del software di gestire più set di dati anziché solo uno grande.

Aiuto molto apprezzato.
Paul.

+0

Qual è il set di dati? testo? – amit

+1

Sicuro che non vuoi * classificazione * invece di mining delle regole di associazione? –

risposta

1

Un modo comune per farlo è utilizzare il k-nearest neighbor.

Estrarre i campi dall'insieme di dati, ad esempio: se il set di dati è un testo, un metodo comune per estrarre i campi utilizza lo bag of words.

Memorizza il "set di allenamento" e quando arriva un nuovo set di dati [che non viene etichettato], trova i k vicini più vicini ad esso [in base ai campi estratti]. Lable il nuovo set di dati come il k più vicino più vicino [dal set di allenamento] di esso.

Un altro metodo comune è l'utilizzo di decision tree. Il problema con gli alberi decisionali - non rendono le decisioni troppo specifiche. Un algoritmo esistente che potrebbe utilizzare per creare un albero [euristicamente] valido è ID3

+1

Fondamentalmente, è possibile applicare qualsiasi metodo di classificazione per quel problema, tra cui SVM, ANN, kNN, alberi decisionali, bayes naive, ... – alfa

2

Sembra un problema di classificazione. Se hai molti set di dati etichettati come "buoni" o "cattivi", puoi addestrare un classificatore per prevedere se un nuovo set di dati è buono o cattivo.

Algoritmi come albero decisionale, k-next neighboor, SVM, reti neurali sono potenziali strumenti che è possibile utilizzare.

Tuttavia, è necessario determinare quali attributi verranno utilizzati per addestrare il classificatore.

Problemi correlati