2015-09-02 15 views
16

Ho trovato un po 'di codice per iniziare scintilla localmente con:Cosa significa `local [*]` nella scintilla?

val conf = new SparkConf().setAppName("test").setMaster("local[*]") 
val ctx = new SparkContext(conf) 

Cosa significa il [*] significa?

+1

C'è una ragione per non accettare la risposta? – gsamaras

risposta

30

Dal doc:

./bin/spark-shell --master local[2] 

L'opzione --master specifica l'URL master per una grappolo distribuito, o locale per eseguire localmente con un filo, o locale [N] per eseguire localmente con N thread. Si dovrebbe iniziare usando local per i test.

E da here:

locale [*] Esegui Spark a livello locale con il maggior numero di thread di lavoro come logiche core presenti sulla macchina.

5

Alcune informazioni aggiuntive

Non eseguire programmi in streaming Spark a livello locale con il maestro configurata come "locale" o "locale [1]". Questo alloca solo una CPU per le attività e se un ricevitore è in esecuzione su di esso, non è rimasta alcuna risorsa per elaborare i dati ricevuti. Usa almeno "local [2]" per avere più core.

Da Spark -Learning: Lampo-veloce analisi dei Big Data

6

URL Maestro Significato


locale: Spark eseguito localmente con un thread di lavoro (cioè senza il parallelismo a tutti).


locale [K]: Eseguire Spark localmente con thread di lavoro K (idealmente, impostare questo al numero di core sulla vostra macchina).


locale [K, F]: Eseguire Spark localmente con thread di lavoro K e F maxFailures (vedi spark.task.maxFailures per una spiegazione di questa variabile)


locale [ *]: Esegui Spark localmente con tutti i thread di lavoro come core logici sulla macchina.


locale [*, F]: Eseguire Spark localmente con il maggior numero di thread di lavoro come core logici sulla vostra macchina e F maxFailures.


scintilla: // host: porta: collegare al master di cluster standalone dato Spark. La porta deve essere quella che il tuo master è configurato per utilizzare, che è 7077 per impostazione predefinita.


scintilla: // HOST1: PORT1, HOST2: PORT2: Connettersi al dato cluster standalone Spark con master in standby con Zookeeper. L'elenco deve avere tutti gli host master nel cluster ad alta disponibilità impostato con Zookeeper. La porta deve essere quella che ogni master è configurato per l'uso, che è 7077 per impostazione predefinita.


mesos: // host: porta: Connettersi al dato cluster Mesos. La porta deve essere quella che sei configurato per l'uso, che è 5050 per impostazione predefinita. Oppure, per un cluster Mesos utilizzando ZooKeeper, utilizzare mesos: // zk: // .... Per inviare con il cluster in -deploy-mode, HOST: PORT deve essere configurato per connettersi a MesosClusterDispatcher.


filato: connettersi a un cluster FILATO in modalità client o un cluster a seconda del valore di --deploy-mode. La posizione del cluster sarà trovata in base alla variabile HADOOP_CONF_DIR o YARN_CONF_DIR.

https://spark.apache.org/docs/latest/submitting-applications.html

Problemi correlati