Ho seguito dataframe:Spark: Gruppo concat equivalente in scala RDD
|-----id-------|----value------|-----desc------|
| 1 | v1 | d1 |
| 1 | v2 | d2 |
| 2 | v21 | d21 |
| 2 | v22 | d22 |
|--------------|---------------|---------------|
voglio trasformarlo in:
|-----id-------|----value------|-----desc------|
| 1 | v1;v2 | d1;d2 |
| 2 | v21;v22 | d21;d22 |
|--------------|---------------|---------------|
- E 'possibile attraverso operazioni di cornice di dati?
- Come sarebbe la trasformazione di rdd in questo caso?
Suppongo che rdd.reduce sia la chiave, ma non ho idea di come adattarlo a questo scenario.
Si desidera che la colonna 'value' nel risultato sia' StringType' o 'ArrayType' colonna? – Odomontois
In Spark <1.6 è possibile utilizzare un UDAF: [sostituzione SPARK SQL per la funzione aggregata mysql GROUP_CONCAT] (http://stackoverflow.com/a/32750733/1560062). – zero323