6
Il pyspark RDD documentazioneMostra partizioni su un pyspark RDD
http://spark.apache.org/docs/1.2.1/api/python/pyspark.html#pyspark.RDD
non mostra alcun metodo (s) per visualizzare le informazioni di partizione per un RDD.
C'è un modo per ottenere che le informazioni senza eseguire un ulteriore passaggio ad es .:
myrdd.mapPartitions(lambda x: iter[1]).sum()
È possibile che questo funziona .. ma sembra sforzo supplementare.
DataFrames sono stati introdotti nel Spark 1.3, e sono spesso utilizzati al posto di RDD. Per coloro che leggono questa risposta e cercano di ottenere il numero di partizioni per un DataFrame, è necessario convertirlo prima in un RDD: 'myDataFrame.rdd.getNumPartitions()'. – dnlbrky