Come contare le occorrenze di ciascun valore distinto in una colonna?

edf.select("x").distinct.show() mostra i valori distinti che sono presenti nella colonna x di edf DataFrame.Come contare le occorrenze di ciascun valore distinto in una colonna?

Esiste un metodo efficace per mostrare anche il numero di volte in cui questi valori distinti si verificano nel frame di dati? (Conteggio per ogni valore distinto)

fonte

2016-06-21 Adurthi Ashwin Swarup

countDistinct è probabilmente la prima scelta:

import org.apache.spark.sql.functions.countDistinct 

df.agg(countDistinct("some_column"))

Se la velocità è più importante della precisione si può considerare approxCountDistinct:

import org.apache.spark.sql.functions.approx_count_distinct 

df.agg(approxCountDistinct("some_column"))

Per ottenere i valori e conteggi :

df.groupBy("some_column").count()

In SQL (spark-sql):

SELECT COUNT(DISTINCT some_column) FROM df

SELECT approx_count_distinct(some_column) FROM df

fonte

2016-06-21 16:14:20 zero323

df.select("some_column").distinct.count

fonte

2016-12-13 06:03:31

ti dice questo come conteggio di ogni valori distinti? Penso che questo ti direbbe che hai valori X, non che Val1 ha A, Val2 ha B, .. ValX ha C? –

Come contare le occorrenze di ciascun valore distinto in una colonna?

risposta

Problemi correlati