2016-05-24 24 views
7

Sto provando a testare la scintilla 1.6 con hdfs in AWS. Sto usando l'esempio di wordcount python disponibile nella cartella degli esempi. Invio il lavoro con spark-submit, il lavoro viene completato con successo e anche i risultati vengono stampati sulla console. Anche l'interfaccia web dice che è stata completata. Tuttavia, la scintilla-submit non termina mai. Ho verificato che il contesto sia stato interrotto anche nel codice di esempio di conteggio delle parole.spark-submit continua a bloccarsi dopo il completamento del lavoro

Cosa potrebbe essere sbagliato?

Questo è quello che vedo sulla console.

6-05-24 14:58:04,749 INFO [Thread-3] handler.ContextHandler (ContextHandler.java:doStop(843)) - stopped o.s.j.s.ServletContextHandler{/stages/stage,null} 
2016-05-24 14:58:04,749 INFO [Thread-3] handler.ContextHandler (ContextHandler.java:doStop(843)) - stopped o.s.j.s.ServletContextHandler{/stages/json,null} 
2016-05-24 14:58:04,749 INFO [Thread-3] handler.ContextHandler (ContextHandler.java:doStop(843)) - stopped o.s.j.s.ServletContextHandler{/stages,null} 
2016-05-24 14:58:04,749 INFO [Thread-3] handler.ContextHandler (ContextHandler.java:doStop(843)) - stopped o.s.j.s.ServletContextHandler{/jobs/job/json,null} 
2016-05-24 14:58:04,750 INFO [Thread-3] handler.ContextHandler (ContextHandler.java:doStop(843)) - stopped o.s.j.s.ServletContextHandler{/jobs/job,null} 
2016-05-24 14:58:04,750 INFO [Thread-3] handler.ContextHandler (ContextHandler.java:doStop(843)) - stopped o.s.j.s.ServletContextHandler{/jobs/json,null} 
2016-05-24 14:58:04,750 INFO [Thread-3] handler.ContextHandler (ContextHandler.java:doStop(843)) - stopped o.s.j.s.ServletContextHandler{/jobs,null} 
2016-05-24 14:58:04,802 INFO [Thread-3] ui.SparkUI (Logging.scala:logInfo(58)) - Stopped Spark web UI at http://172.30.2.239:4040 
2016-05-24 14:58:04,805 INFO [Thread-3] cluster.SparkDeploySchedulerBackend (Logging.scala:logInfo(58)) - Shutting down all executors 
2016-05-24 14:58:04,805 INFO [dispatcher-event-loop-2] cluster.SparkDeploySchedulerBackend (Logging.scala:logInfo(58)) - Asking each executor to shut down 
2016-05-24 14:58:04,814 INFO [dispatcher-event-loop-5] spark.MapOutputTrackerMasterEndpoint (Logging.scala:logInfo(58)) - MapOutputTrackerMasterEndpoint stopped! 
2016-05-24 14:58:04,818 INFO [Thread-3] storage.MemoryStore (Logging.scala:logInfo(58)) - MemoryStore cleared 
2016-05-24 14:58:04,818 INFO [Thread-3] storage.BlockManager (Logging.scala:logInfo(58)) - BlockManager stopped 
2016-05-24 14:58:04,820 INFO [Thread-3] storage.BlockManagerMaster (Logging.scala:logInfo(58)) - BlockManagerMaster stopped 
2016-05-24 14:58:04,821 INFO [dispatcher-event-loop-3] scheduler.OutputCommitCoordinator$OutputCommitCoordinatorEndpoint (Logging.scala:logInfo(58)) - OutputCommitCoordinator stopped! 
2016-05-24 14:58:04,824 INFO [Thread-3] spark.SparkContext (Logging.scala:logInfo(58)) - Successfully stopped SparkContext 
2016-05-24 14:58:04,827 INFO [sparkDriverActorSystem-akka.actor.default-dispatcher-2] remote.RemoteActorRefProvider$RemotingTerminator (Slf4jLogger.scala:apply$mcV$sp(74)) - Shutting down remote daemon. 
2016-05-24 14:58:04,828 INFO [sparkDriverActorSystem-akka.actor.default-dispatcher-2] remote.RemoteActorRefProvider$RemotingTerminator (Slf4jLogger.scala:apply$mcV$sp(74)) - Remote daemon shut down; proceeding with flushing remote transports. 
2016-05-24 14:58:04,843 INFO [sparkDriverActorSystem-akka.actor.default-dispatcher-2] remote.RemoteActorRefProvider$RemotingTerminator (Slf4jLogger.scala:apply$mcV$sp(74)) - Remoting shut down. 

Devo fare un ctrl-c per terminare il processo di invio di scintille. Questo è davvero un problema strano e non ho idea di come risolvere questo problema. Per favore fatemi sapere se ci sono dei registri che dovrei guardare o fare le cose diversamente qui. http://pastebin.com/Nfnt4XmT

+0

Non conosco Python ma vorrei verificare per quale thread è attivo anche quando il contesto Spark è spento. Controllare http://stackoverflow.com/questions/4046986/python-how-to-get-the-numebr-of-active-threads-started-by-specific-class –

+0

Potrebbe essere necessario interrompere il contesto spark al fine dell'applicazione facendo 'sc.stop()' –

+0

Ho già interrotto il contesto spark. Questo è post che. –

risposta

-2

Puoi provare a utilizzare nohup con la scintilla comando submit e mettere '&' operatore alla fine perché per quanto ne:

ecco il link pastebin dell'uscita jstack del processo scintilla presentare può ottenere dal registro incollato il contesto scintilla e l'unico problema è che non si riflette nel terminale, correggimi se sbaglio.

nohup spark-submit --master yarn --deploy-mode client --driver-memory=4G --num-executors=12 --executor-memory=4G --conf spark.yarn.driver.memoryOverhead=800 --conf spark.yarn.executor.memoryOverhead=800 --conf spark.kryoserializer.buffer.max=3G your_python_file.py > your_log_file.log & 
Problemi correlati