2014-11-12 12 views
11

Ho un paio scintilla RDD (chiave, count) come di seguitoCome trovare il valore massimo nella coppia RDD?

Array[(String, Int)] = Array((a,1), (b,2), (c,1), (d,3)) 

Come trovare la chiave con conteggio più alto utilizzando scintilla scala API?

EDIT: tipo di dati di coppia RDD è org.apache.spark.rdd.RDD [(String, Int)]

+0

Come hai trovato il tipo di dati di una coppia di RDD? – user2543622

risposta

17

Uso Array.maxBy metodo:

val a = Array(("a",1), ("b",2), ("c",1), ("d",3)) 
val maxKey = a.maxBy(_._2) 
// maxKey: (String, Int) = (d,3) 

o RDD.max:

val maxKey2 = rdd.max()(new Ordering[Tuple2[String, Int]]() { 
    override def compare(x: (String, Int), y: (String, Int)): Int = 
     Ordering[Int].compare(x._2, y._2) 
}) 
9

Utilizzare takeOrdered(1)(Ordering[Int].reverse.on(_._2)):

val a = Array(("a",1), ("b",2), ("c",1), ("d",3)) 
val rdd = sc.parallelize(a) 
val maxKey = rdd.takeOrdered(1)(Ordering[Int].reverse.on(_._2)) 
// maxKey: Array[(String, Int)] = Array((d,3)) 
5

Per Pyspark:

Let a essere la coppia RDD con le chiavi come stringa e valori come interi poi

a.max(lambda x:x[1]) 

restituisce la coppia chiave-valore con il valore massimo. Fondamentalmente gli ordini di funzione massima per il valore di ritorno della funzione lambda.

Qui a è una coppia RDD con elementi come ('key',int) e x[1] si riferisce solo alla parte intera dell'elemento.

Si noti che la funzione max da sola ordinerà per tasto e restituirà il valore massimo.

La documentazione è disponibile presso https://spark.apache.org/docs/1.5.0/api/python/pyspark.html#pyspark.RDD.max

+0

La domanda è relativa a Scala non python –

+0

qualsiasi idea di come possiamo stampare l'intera tupla? Sopra la risposta dà il valore massimo di x [1]. Voglio anche il valore di x [0] dove x [1] è massimo – user2543622

+0

@ user2543622 no, restituisce entrambi i valori. –

0

Spark RDD di sono timewise più efficienti quando vengono lasciati come RDD di e non trasformati in Array

strinIntTuppleRDD.reduce((x, y) => if(x._2 > y._2) x else y) 
Problemi correlati