Sto cercando un geniale aiuto SQL con un problema statistico complesso che sto riscontrando.Campionamento statistico SQL
Quello che sto cercando di fare è estrarre un campione statisticamente bilanciato da un gruppo sbilanciato di profili utente. Fare questo per un attributo profilo singolo (ad esempio genere) alla volta sarebbe un po 'semplice. Ma farlo su più dimensioni contemporaneamente richiede una certa raffinatezza.
Per amor di discussione, diciamo che ho questo tavolo.
Profile.userID
Profile.Gender
Profile.Age
Profile.Income
Se voglio tirare un pool di profili fuori dal mix in modo che il nuovo campione di utenti corrisponde grosso modo tutte le seguenti caratteristiche:
50% male, 50% female
30% young, 40% middle age, 40% old
40% low income, 40% middle income, 20% high income
Qualcuno ha qualche idea su come tirare fuori questo?
Che cosa impedisce di estrarre casualmente i record uno alla volta fino a quando il campionamento soddisfa le specifiche? –
Come faccio a evitare che si perda continuamente? Dico che ho bisogno solo di un altro record femminile, ma tirando quello poi inclino la mia età e le entrate fuori equilibrio ...? – tbacos
30% giovani, 40% di mezza età, 40% vecchi! = 100% C'è una sovrapposizione tra giovani e di mezza età nel tuo raggio d'azione? –