Capisco che i miei dati siano le partizioni delle funzioni partitionBy
. Se utilizzo rdd.partitionBy(100)
, partirà i miei dati con la chiave in 100 parti. cioè i dati associati a chiavi simili saranno raggruppati insiemepyspark dati di partioning utilizzando partizione
- La mia comprensione è corretta?
- È consigliabile avere un numero di partizioni pari al numero di core disponibili ? Ciò rende l'elaborazione più efficiente?
- e se i miei dati non sono in chiave, formato valore. Posso ancora usare questa funzione?
- consente di dire che i miei dati sono serial_number_of_student, student_name. In questo caso posso partizionare i miei dati in base a student_name invece del numero di serie ?
Si consiglia di controllare questa risposta, contiene molti refusi. –