Supponiamo quindi di avere un rdd con 3000 righe. Le prime 2000 righe sono di classe 1 e le ultime 1000 righe sono di classe2. L'RDD è partizionato su 100 partizioni.In che modo Sparks RDD.randomSplit in realtà divide l'RDD
Quando si chiama RDD.randomSplit(0.8,0.2)
Ha la funzione anche mischiare il RDD? La nostra suddivisione semplicemente campiona il 20% continuamente del rdd? Oppure seleziona il 20% delle partizioni a caso?
Idealmente la divisione risultante ha la stessa distribuzione di classe dell'originale RDD. (Cioè 2: 1)
Grazie