2015-07-16 15 views
10

Sto eseguendo un cluster AWS EMR con Spark (1.3.1) installato tramite il menu a discesa della console EMR. Spark è aggiornato ed elabora i dati, ma sto cercando di trovare quale porta è stata assegnata a WebUI. Ho provato il port forwarding sia 4040 che 8080 senza connessione. Sto inoltrando in questo modoInterfaccia utente di Spark su AWS EMR

ssh -i ~/KEY.pem -L 8080:localhost:8080 [email protected]_DNS 

1) Come faccio a sapere qual è la porta assegnata di Spark WebUI? 2) Come verificare che Spark WebUI sia in esecuzione?

risposta

9

Spark su EMR è configurato per YARN, pertanto l'interfaccia utente Spark è disponibile dall'URL dell'applicazione fornito dal gestore risorse YARN (http://spark.apache.org/docs/latest/monitoring.html). Quindi il modo più semplice per raggiungerlo è configurare il browser con SOCKS usando una porta aperta da SSH, quindi dalla console EMR aprire Resource Manager e fare clic sull'URL del Master dell'applicazione che si trova a destra dell'applicazione in esecuzione. server di Spark La storia è disponibile presso la porta di default 18080.

Esempio di calzini con EMR a http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-web-interfaces.html

+0

Ciao, io sono in grado di accedere al Hadoop ResourceManager su 'http: // master-dns-nome-pubblico: 8088 /', ma nessuno dei collegamenti agli URL master dell'applicazione funziona. Ho impostato il mio proxy in modo errato o dovrei utilizzare il ResourceManager YARN: come posso accedere a YARN ResourceManager? Infine, il collegamento "RecourseManager" sulla console EMR non è disponibile, solo "Abilita connessione Web" è un collegamento selezionabile. Qualche idea sul perché questo? –

+2

Sembra che tu stia usando EMR versione 4.0.0. Hadoop ResourceManager sulla porta 8088 è il ResourceManager YARN. Verifica che i pattern URL sul proxy dei socks includano i percorsi degli URL visualizzati dall'URL del master dell'applicazione (probabilmente il dominio previsto è diverso). Infine, Enable Web Connection nella console EMS di AWS è un bug che verrà risolto presto. – ChristopherB

+0

Ho anche lo stesso problema, posso aprire 8088 nel mio browser, ma non riesco ad aprire 9026 e 9101.Inoltre, faccio clic su "Abilita connessione Web" e non vedo mai l'elenco dei collegamenti – soulmachine

4

Ecco un'alternativa se non si vuole affrontare con la configurazione del browser con SOCKS come suggerito sui documenti EMR .

  1. Aprire un tunnel ssh per il nodo master con il port forwarding alla macchina che esegue scintilla ui

    ssh -i path/to/aws.pem -L 4040:SPARK_UI_NODE_URL:4040 [email protected]_URL 
    

    MASTER_URL (EMR_DNS in questione) è l'URL del nodo master che si può ottenere da Pagina della console di gestione EMR per il cluster

    SPARK_UI_NODE_URL può essere visualizzato nella parte superiore del registro stderr. La linea di registro sarà simile:

    16/04/28 21:24:46 INFO SparkUI: Started SparkUI at http://10.2.5.197:4040 
    
  2. Puntare il browser a localhost: 4040

provato questo su EMR 4.6 in esecuzione Spark 2.6.1

+0

dove si trova il registro stderr? Se avvio il pyspark con la stessa nota di master_URL, il master_URL e lo SPRK_UL_NODE dovrebbero essere uguali? – sgu

-1

Basta usare tunnel SSH On macchina locale:

ssh -i/percorso/a/pem -L 3000: ec2-xxxxcompute-1.amazonaws.com: 8088 [email protected]

Dal browser del tuo computer locale persi:

localhost: 3000