2014-07-08 12 views
6

sto installando Spark 0.9 su AWS e sto trovando che quando si avvia la shell Pyspark interattivo,/lavoratori remoti vengono prima di essere registrati i miei esecutori:Spark - Remote Akka client dissociato

14/07/08 22:48:05 INFO cluster.SparkDeploySchedulerBackend: Registered executor: 
Actor[akka.tcp://[email protected]:54110/user/ 
Executor#-862786598] with ID 0 

e poi dissociato quasi subito , prima che io abbia la possibilità di eseguire qualsiasi cosa:

14/07/08 22:48:05 INFO cluster.SparkDeploySchedulerBackend: Executor 0 disconnected, 
so removing it 
14/07/08 22:48:05 ERROR scheduler.TaskSchedulerImpl: Lost an executor 0 (already 
removed): remote Akka client disassociated 

Qualche idea di cosa potrebbe essere sbagliato? Ho provato a regolare le opzioni JVM spark.akka.frameSize e spark.akka.timeout, ma sono abbastanza sicuro che questo non è il problema dato che (1) non sto eseguendo nulla per cominciare, e (2) il mio gli esecutori si disconnettono pochi secondi dopo l'avvio, il che è ben compreso nel timeout predefinito di 100 secondi.

Grazie!

Jack

+1

Dove si avvia la shell? Prova ad avviarlo sul nodo principale all'interno di AWS, per assicurarti che non si tratti di un problema di installazione di rete. Prova anche 'bin/spark-shell' per eliminare Python come causa. –

+0

Sto già facendo il primo, e la shell di Scala restituisce lo stesso errore. – Jack

+0

C'è forse un indizio nei registri worker o executor? O su 'http: // : 4040/executors /'? (Sì, in fondo non ne ho idea. Mi dispiace!) –

risposta

1

Ho avuto un problema molto simile, se non lo stesso. Ha iniziato a funzionare per me una volta che i lavoratori si sono connessi al master usando lo stesso nome che il maestro pensava di avere.

miei messaggi di log sono stati qualcosa come:

ERROR remote.EndpointWriter: AssociationError [akka.tcp://[email protected]:7078] -> [akka.tcp://[email protected]:7077]: Error [Association failed with [akka.tcp://[email protected]:7077]]. ERROR remote.EndpointWriter: AssociationError [akka.tcp://[email protected]:7078] -> [akka.tcp://[email protected]:7077]: Error [Association failed with [akka.tcp://[email protected]:7077]]

WARN util.Utils: Your hostname, idc1-hrm1 resolves to a loopback address: 127.0.0.1; using 192.168.121.187 instead (on interface eth0)

in modo da controllare il registro del maestro e vedere quale nome si pensa di avere. Quindi usa lo stesso nome sugli operai.