2015-06-22 9 views
11

Ho realizzato che la scintilla principale non risponde quando uccido il capo dello spettatore (ovviamente ho assegnato il compito di elezione del capo allo zookeeper). Quello che segue è il log degli errori che vedo sul nodo Master Spark. Hai qualche suggerimento per risolverlo?Elezione del nuovo capo del guardiano dello zoo che spegne lo Spark Master

15/06/22 10:44:00 INFO ClientCnxn: Unable to read additional data from 
> server sessionid 0x14dd82e22f70ef1, likely server has closed socket, 
> closing socket connection and attempting reconnect 

15/06/22 10:44:00 
> INFO ClientCnxn: Unable to read additional data from server sessionid 
> 0x24dc5a319b40090, likely server has closed socket, closing socket 
> connection and attempting reconnect 

15/06/22 10:44:01 INFO 
> ConnectionStateManager: State change: SUSPENDED 

15/06/22 10:44:01 INFO 
> ConnectionStateManager: State change: SUSPENDED 

15/06/22 10:44:01 WARN 
> ConnectionStateManager: There are no ConnectionStateListeners 
> registered. 

15/06/22 10:44:01 INFO ZooKeeperLeaderElectionAgent: We 
> have lost leadership 

15/06/22 10:44:01 ERROR Master: Leadership has 
> been revoked -- master shutting down. 
+0

Quali sono i parametri esatti di configurazione per spark.deploy.recoveryMode, spark.zookeeper.url? lanci con --supervise? Qual è il tuo gestore di cluster? – huitseeker

risposta

3

Questo è il comportamento previsto. È necessario impostare 'n' numero di master ed è necessario specificare l'URL guardiano dello zoo in tutto il maestro env.sh

SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=zk1:2181,zk2:2181" 

Nota che guardiano dello zoo mantiene quorum. Ciò significa che è necessario disporre di un numero dispari di zookeeper e solo quando il quorum viene mantenuto il cluster di zookeeper sarà attivo. Poiché la scintilla dipende dal guardiano dello zoo, implica che il cluster di scintille non sarà attivo fino a quando non verrà mantenuto il quorum degli zookeeper.

Quando si impostano due (n) master e si abbassa un guardiano dello zoo, il master corrente verrà abbassato e il nuovo master verrà eletto e tutti i nodi worker saranno collegati al nuovo master.

si dovrebbe avere iniziato il vostro lavoratore dando

./start-slave.sh spark://master1:port1,master2:port2 

È necessario attendere per 1-2 minuti !! per notare questo failover.

Problemi correlati