Esecuzione di lavori spark utilizzando scala, come previsto, tutti i lavori stanno finendo in tempo, ma in qualche modo alcuni registri INFO vengono stampati per 20-25 minuti prima che il lavoro si fermi.I lavori di Spark terminano ma l'applicazione richiede tempo per chiudere
Pubblicazione di alcuni screenshot dell'interfaccia utente che può aiutare a capire il problema.
- segue è volta scattata dal 4 fasi:
I non capisco perché ci sia così tanto tempo passato tra entrambi gli ID di lavoro.
seguito è il mio frammento di codice:
val sc = new SparkContext(conf)
for (x <- 0 to 10) {
val zz = getFilesList(lin);
val links = zz._1
val path = zz._2
lin = zz._3
val z = sc.textFile(links.mkString(",")).map(t => t.split('\t')).filter(t => t(4) == "xx" && t(6) == "x").map(t => titan2(t)).filter(t => t.length > 35).map(t => ((t(34)), (t(35), t(5), t(32), t(33))))
val way_nodes = sc.textFile(way_source).map(t => t.split(";")).map(t => (t(0), t(1)));
val t = z.join(way_nodes).map(t => (t._2._1._2, Array(Array(t._2._1._2, t._2._1._3, t._2._1._4, t._2._1._1, t._2._2)))).reduceByKey((t, y) => t ++ y).map(t => process(t)).flatMap(t => t).combineByKey(createTimeCombiner, timeCombiner, timeMerger).map(averagingFunction).map(t => t._1 + "," + t._2)
t.saveAsTextFile(path)
}
sc.stop()
Alcuni più followup: spark-1.4.1 saveAsTextFile to S3 is very slow on emr-4.0.0
Io in genere consiglio di usare il pacchetto spark-csv da Databricks piuttosto che saveAsTextFile, ma a parte questo, quale versione di Spark stai usando? –
Vantaggio di saveAsTextFile è che posso salvare direttamente tutto su s3, non sono sicuro del funzionamento dei databricks del pacchetto spark-csv. Grazie per una certa direzione, la esamineremo comunque. scintilla - 1.4.1 scala - 2.10.6 – Harshit