Come posso prendere un array di sparkle rdd e dividerlo in due rdds in modo casuale così ogni rdd includerà una parte di dati (diciamo 97% e 3 %).Spark - scala: shuffle RDD/split RDD in due parti casuali in modo casuale
ho pensato di mischiare la lista e poi shuffledList.take((0.97*rddList.count).toInt)
Ma come posso Mescola il RDD?
Oppure c'è un modo migliore per dividere la lista?
sono tutti gli elementi unici Basta chiedersi se si può usare 'takeSample (cioè senza i duplicati?)() 'e quindi filtra il campione dall'elenco originale. – DNA
Può essere duplicato, ma perché è importante, cosa saresti in grado di fare se fossero unici? –
OK, non penso che l'approccio takeSample possa funzionare con i duplicati. – DNA