In Pyspark, posso creare un RDD da una lista e decidere quante partizioni di avere:numero di partizioni in RDD e prestazioni in Spark
sc = SparkContext()
sc.parallelize(xrange(0, 10), 4)
Come funziona il numero di partizioni decido di partizionare il mio RDD influenza la prestazione? E come questo dipende dal numero di core della mia macchina?
Consiglio vivamente questo [collegamento] (http://blog.cloudera.com/blog/2015/03/how-to-tune-your-apache-spark-jobs-part-2/). Passare alla sezione "Tuning Parallelism". Diventa piuttosto complicato, ma è certamente approfondito. –