Estrazione di associazioni con un numero elevato di piccoli set di dati

Ho un grande numero (100-150) di piccoli dataset (circa 1 kbyte). Chiameremo questi set di dati 'buoni'. Ho anche un numero simile di set di dati "cattivi".Estrazione di associazioni con un numero elevato di piccoli set di dati

Ora sto cercando software (o forse algoritmi) per trovare le regole per ciò che costituisce un set di dati "buono" rispetto a un set di dati "cattivo".

La cosa importante qui è la capacità del software di gestire più set di dati anziché solo uno grande.

Aiuto molto apprezzato.
Paul.

fonte

2012-03-04 Paul Lovell

Qual è il set di dati? testo? – amit

Sicuro che non vuoi * classificazione * invece di mining delle regole di associazione? –

Un modo comune per farlo è utilizzare il k-nearest neighbor.

Estrarre i campi dall'insieme di dati, ad esempio: se il set di dati è un testo, un metodo comune per estrarre i campi utilizza lo bag of words.

Memorizza il "set di allenamento" e quando arriva un nuovo set di dati [che non viene etichettato], trova i k vicini più vicini ad esso [in base ai campi estratti]. Lable il nuovo set di dati come il k più vicino più vicino [dal set di allenamento] di esso.

Un altro metodo comune è l'utilizzo di decision tree. Il problema con gli alberi decisionali - non rendono le decisioni troppo specifiche. Un algoritmo esistente che potrebbe utilizzare per creare un albero [euristicamente] valido è ID3

fonte

2012-03-04 13:10:39 amit

Fondamentalmente, è possibile applicare qualsiasi metodo di classificazione per quel problema, tra cui SVM, ANN, kNN, alberi decisionali, bayes naive, ... – alfa

Sembra un problema di classificazione. Se hai molti set di dati etichettati come "buoni" o "cattivi", puoi addestrare un classificatore per prevedere se un nuovo set di dati è buono o cattivo.

Algoritmi come albero decisionale, k-next neighboor, SVM, reti neurali sono potenziali strumenti che è possibile utilizzare.

Tuttavia, è necessario determinare quali attributi verranno utilizzati per addestrare il classificatore.

fonte

2012-03-09 04:31:27 Phil

Estrazione di associazioni con un numero elevato di piccoli set di dati

risposta

Problemi correlati