Hadoop 2.0
spark-ec2
script non supporta la modifica cluster esistente, ma è possibile creare un nuovo cluster Spark con Hadoop 2.
Vedi questo estratto dal script --help
:
--hadoop-major-version=HADOOP_MAJOR_VERSION
Major version of Hadoop (default: 1)
Quindi ad esempio:
spark-ec2 -k spark -i ~/.ssh/spark.pem -s 1 --hadoop-major-version=2 launch my-spark-cluster
..will creare un cluster utilizzando la versione corrente di Spark e Hadoop 2.
Se si utilizza Spark v. 1.3.1 o Spark v. 1.4.0 e creerà un cluster autonomo, quindi otterrete Hadoop v. 2.0.0 MR1 (dalla distribuzione Cloudera Hadoop Platform 4.2.0) in questo modo.
Gli avvertimenti sono:
.. ma ho con successo ha utilizzato alcuni cluster di Spark 1.2.0 e 1.3.1 creati con Hadoop 2.0.0, utilizzando alcune funzionalità specifiche di Hadoop2. (Per Spark 1.2.0 con qualche piccola modifica, che ho messo nel mio forche del Spark e spark-ec2, ma questa è un'altra storia.)
Hadoop 2.4, 2.6
se avete bisogno di Hadoop 2.4 o Hadoop 2.6 quindi vorrei (a partire da giugno 2015) raccomandarvi di creare manualmente un cluster autonomo, è più facile di quanto pensiate.
fonte
2015-02-15 15:11:46
Non penso che questo sia attualmente supportato, anche se c'è un [PR aperto per aggiungere il supporto per l'avvio di cluster Hadoop 2] (https://github.com/mesos/spark-ec2/pull/77). –