Continuo a vedere questi avvertimenti quando si utilizza trainImplicit
:Spark MLlib - trainImplicit avvertimento
WARN TaskSetManager: Stage 246 contains a task of very large size (208 KB).
The maximum recommended task size is 100 KB.
E poi la dimensione del compito inizia ad aumentare. Ho provato a chiamare repartition
sull'RDD di input ma gli avvisi sono gli stessi.
Tutti questi avvisi provengono da iterazioni ALS, da flatMap e anche da aggregato, ad esempio l'origine della fase in cui flatMap mostra questi avvisi (con Spark 1.3.0, ma sono anche mostrati in Spark 1.3. 1):
org.apache.spark.rdd.RDD.flatMap(RDD.scala:296)
org.apache.spark.ml.recommendation.ALS$.org$apache$spark$ml$recommendation$ALS$$computeFactors(ALS.scala:1065)
org.apache.spark.ml.recommendation.ALS$$anonfun$train$3.apply(ALS.scala:530)
org.apache.spark.ml.recommendation.ALS$$anonfun$train$3.apply(ALS.scala:527)
scala.collection.immutable.Range.foreach(Range.scala:141)
org.apache.spark.ml.recommendation.ALS$.train(ALS.scala:527)
org.apache.spark.mllib.recommendation.ALS.run(ALS.scala:203)
e da aggregati:
org.apache.spark.rdd.RDD.aggregate(RDD.scala:968)
org.apache.spark.ml.recommendation.ALS$.computeYtY(ALS.scala:1112)
org.apache.spark.ml.recommendation.ALS$.org$apache$spark$ml$recommendation$ALS$$computeFactors(ALS.scala:1064)
org.apache.spark.ml.recommendation.ALS$$anonfun$train$3.apply(ALS.scala:538)
org.apache.spark.ml.recommendation.ALS$$anonfun$train$3.apply(ALS.scala:527)
scala.collection.immutable.Range.foreach(Range.scala:141)
org.apache.spark.ml.recommendation.ALS$.train(ALS.scala:527)
org.apache.spark.mllib.recommendation.ALS.run(ALS.scala:203)
puoi fornire dati ed esempi di codice? – ipoteka
sfortunatamente no. – Tarantula
Sono sorpreso che un quadro moderno pensi che 208KB sia "grande". Ti chiedi quale sarà la logica su questo ... – Paul