2015-11-24 44 views

risposta

13

Le distribuzioni Spark preinstallate, come quella che credo utilizzi in base a another question of yours, sono piuttosto semplici da "aggiornare", poiché Spark non è effettivamente "installato". In realtà, tutto ciò che dovete fare è:

  • Download distro Spark appropriata (pre-costruito per Hadoop 2.6 e versioni successive, nel tuo caso)
  • Decomprimere il file tar nella directory appropriata (cartella iewhere spark-1.3.1-bin-hadoop2.6 già è)
  • Aggiorna il tuo SPARK_HOME (e forse anche altre variabili di ambiente a seconda della configurazione) di conseguenza

Ecco quello che ho appena fatto io stesso, per andare da 1.3.1 a 1.5.2, in un ambiente simile al tuo (vagabondo VM in esecuzione Ubuntu):

1) Scaricare il file tar nella directory appropriata

[email protected]:~$ cd $SPARK_HOME 
[email protected]:/usr/local/bin/spark-1.3.1-bin-hadoop2.6$ cd .. 
[email protected]:/usr/local/bin$ ls 
ipcluster  ipcontroller2 iptest ipython2 spark-1.3.1-bin-hadoop2.6 
ipcluster2 ipengine  iptest2 jsonschema 
ipcontroller ipengine2  ipython pygmentize 
[email protected]:/usr/local/bin$ sudo wget http://apache.tsl.gr/spark/spark-1.5.2/spark-1.5.2-bin-hadoop2.6.tgz 
[...] 
[email protected]:/usr/local/bin$ ls 
ipcluster  ipcontroller2 iptest ipython2 spark-1.3.1-bin-hadoop2.6 
ipcluster2 ipengine  iptest2 jsonschema spark-1.5.2-bin-hadoop2.6.tgz 
ipcontroller ipengine2  ipython pygmentize 

Si noti che lo specchio esatto si dovrebbe usare con wget sarà probabilmente diverso dal mio, a seconda della località; lo otterrete facendo clic sul collegamento "Scarica scintilla" nello download page, dopo aver selezionato il tipo di pacchetto da scaricare.

2) decomprimere il file tgz con

[email protected]:/usr/local/bin$ sudo tar -xzf spark-1.*.tgz 
[email protected]:/usr/local/bin$ ls 
ipcluster  ipcontroller2 iptest ipython2 spark-1.3.1-bin-hadoop2.6 
ipcluster2 ipengine  iptest2 jsonschema spark-1.5.2-bin-hadoop2.6 
ipcontroller ipengine2  ipython pygmentize spark-1.5.2-bin-hadoop2.6.tgz 

Si può vedere che ora avete una nuova cartella, spark-1.5.2-bin-hadoop2.6.

3) Aggiornare di conseguenza SPARK_HOME (e possibilmente altre variabili di ambiente che si sta utilizzando) per puntare a questa nuova directory anziché alla precedente.

E si dovrebbe fare, dopo il riavvio della macchina.

Si noti che:

  1. Non è necessario rimuovere la distribuzione Spark precedente, a condizione che tutte le variabili di ambiente rilevante Punto a quello nuovo. In questo modo, puoi anche spostare rapidamente "avanti e indietro" tra la vecchia e la nuova versione, nel caso in cui tu voglia testare le cose (cioè devi semplicemente modificare le variabili d'ambiente rilevanti).
  2. sudo era necessario nel mio caso; potrebbe non essere necessario per te in base alle tue impostazioni.
  3. Dopo aver verificato che tutto funzioni correttamente, è consigliabile eliminare il file tgz scaricato.
  4. È possibile utilizzare la stessa identica procedura per eseguire l'aggiornamento a versioni future di Spark, come vengono fuori (piuttosto veloce). Se si esegue questa operazione, assicurarsi che i precedenti file tgz siano stati eliminati o modificare il comando tar in alto in modo che facciano riferimento a un file specifico (ad esempio, i caratteri jolly * come sopra).
+0

Ma io non posso salvare il processo attualmente in esecuzione, come un Hadoop aggiornamento in sequenza, giusto? – ribamar

0
  1. Impostare il SPARK_HOME-/opt/spark
  2. Download l'ultima pre-costruito cioè binario spark-2.2.1-bin-hadoop2.7.tgz - possono utilizzare wget
  3. Creare il link simbolico all'ultima scaricare - ln -s /opt/spark-2.2.1 /opt/spark̀

Per ogni nuova versione scaricata basta creare t egli link simbolico a esso (fase 3)

  • ln -s /opt/spark-x.x.x /opt/spark̀
Problemi correlati