Ho cercato di verificare il percentile_approx per un gruppo di utenti. L'intento è quello di ottenere il 25% dei clienti principali nel set di dati. Quindi, per verificarlo, ho eseguito la seguente query HIVE.percentile_approx nell'alveare restituendo zero
select percentile_approx(amount, 0.75)
from sales
Tuttavia, il valore restituito da questa query è 0.0
. Non sono sicuro di quale sia il problema. Quando eseguo questa query su un campione di pochi record, il risultato è ciò che è previsto.
Qualcuno può per favore far luce su questo?
Nota: sto cercando di trovare il percentile in un set di dati contenente più di 3,3 record M.
forse prova prima il campione? qualcosa come: 'select percentile_approx (quantità, 0,75) dal tablesample di vendita (0,01 percento)' – Sean