Ho una certa confusione riguardo il parallelismo in Spark e Scala. Sto facendo un esperimento in cui devo leggere molti file (csv) dal disco per modificare/elaborare determinate colonne e poi scriverle di nuovo sul disco.Capire il parallelismo in Spark e Scala
Nei miei esperimenti, se utilizzo il metodo di parallelizzazione di SparkContext solo allora non sembra avere alcun impatto sulle prestazioni. Tuttavia, semplicemente usando le collezioni parallele di Scala (tramite il par) si riduce il tempo a metà.
Sto eseguendo i miei esperimenti in modalità localhost con gli argomenti local [2] per il contesto spark.
La mia domanda è quando dovrei usare le collezioni parallele di scala e quando usare il parallelize del contesto spark?
ci sono varie collezioni parallele in Scala. vedere: http: //docs.scala-lang.org/overviews/parallel-collections/conversions.html e http://docs.scala-lang.org/overviews/parallel-collections/concrete-parallel-collections.html –