Sto tentando di eseguire i processi Spark su un cluster Dataproc, ma Spark non verrà avviato a causa di un errore di configurazione di Yarn.Allocazione memoria errata per Yarn/Spark dopo l'installazione automatica di Dataproc Cluster
Viene visualizzato il seguente errore durante l'esecuzione di "spark-shell" dalla shell (localmente sul master), nonché durante il caricamento di un lavoro tramite la GUI Web e l'utilità della riga di comando gcloud dalla macchina locale:
15/11/08 21:27:16 ERROR org.apache.spark.SparkContext: Error initializing SparkContext.
java.lang.IllegalArgumentException: Required executor memory (38281+2679 MB) is above the max threshold (20480 MB) of this cluster! Please increase the value of 'yarn.s
cheduler.maximum-allocation-mb'.
Ho provato a modificare il valore in /etc/hadoop/conf/yarn-site.xml
ma non ha modificato nulla. Non penso che estrae la configurazione da quel file.
Ho provato con più combinazioni di cluster, in più siti (principalmente Europa), e ho ottenuto questo solo per funzionare con la versione a memoria ridotta (4 core, 15 GB di memoria).
I.e. questo è solo un problema sui nodi configurati per una memoria superiore a quella consentita dal filato.
Holy moly! La dimensione della memoria master inferiore a quella del lavoratore era probabilmente l'unica combinazione che non avevo ancora provato. Molte grazie! Ha funzionato come un fascino :) – habitats
Sembra che questo cambiamento abbia introdotto un nuovo problema. Ottengo [il seguente errore] (http://i.imgur.com/5UVnFJP.png) quando si esegue questa nuova configurazione:. Il basso cluster di memoria non ha problemi con l'identico lavoro .jar-file. – habitats
Devo postarlo come un nuovo problema? – habitats