Come aggiornare Spark alla versione più recente?

Ho una macchina virtuale che contiene Spark 1.3 ma voglio aggiornarlo a Spark 1.5 principalmente per alcune funzionalità supportate che non erano in 1.3. È possibile aggiornare la versione da 1.3 a 1.5 e se sì, come posso farlo?Come aggiornare Spark alla versione più recente?

fonte

2015-11-24 Jason Donnald

Le distribuzioni Spark preinstallate, come quella che credo utilizzi in base a another question of yours, sono piuttosto semplici da "aggiornare", poiché Spark non è effettivamente "installato". In realtà, tutto ciò che dovete fare è:

Download distro Spark appropriata (pre-costruito per Hadoop 2.6 e versioni successive, nel tuo caso)
Decomprimere il file tar nella directory appropriata (cartella iewhere spark-1.3.1-bin-hadoop2.6 già è)
Aggiorna il tuo SPARK_HOME (e forse anche altre variabili di ambiente a seconda della configurazione) di conseguenza

Ecco quello che ho appena fatto io stesso, per andare da 1.3.1 a 1.5.2, in un ambiente simile al tuo (vagabondo VM in esecuzione Ubuntu):

1) Scaricare il file tar nella directory appropriata

[email protected]:~$ cd $SPARK_HOME 
[email protected]:/usr/local/bin/spark-1.3.1-bin-hadoop2.6$ cd .. 
[email protected]:/usr/local/bin$ ls 
ipcluster  ipcontroller2 iptest ipython2 spark-1.3.1-bin-hadoop2.6 
ipcluster2 ipengine  iptest2 jsonschema 
ipcontroller ipengine2  ipython pygmentize 
[email protected]:/usr/local/bin$ sudo wget http://apache.tsl.gr/spark/spark-1.5.2/spark-1.5.2-bin-hadoop2.6.tgz 
[...] 
[email protected]:/usr/local/bin$ ls 
ipcluster  ipcontroller2 iptest ipython2 spark-1.3.1-bin-hadoop2.6 
ipcluster2 ipengine  iptest2 jsonschema spark-1.5.2-bin-hadoop2.6.tgz 
ipcontroller ipengine2  ipython pygmentize

Si noti che lo specchio esatto si dovrebbe usare con wget sarà probabilmente diverso dal mio, a seconda della località; lo otterrete facendo clic sul collegamento "Scarica scintilla" nello download page, dopo aver selezionato il tipo di pacchetto da scaricare.

2) decomprimere il file tgz con

[email protected]:/usr/local/bin$ sudo tar -xzf spark-1.*.tgz 
[email protected]:/usr/local/bin$ ls 
ipcluster  ipcontroller2 iptest ipython2 spark-1.3.1-bin-hadoop2.6 
ipcluster2 ipengine  iptest2 jsonschema spark-1.5.2-bin-hadoop2.6 
ipcontroller ipengine2  ipython pygmentize spark-1.5.2-bin-hadoop2.6.tgz

Si può vedere che ora avete una nuova cartella, spark-1.5.2-bin-hadoop2.6.

3) Aggiornare di conseguenza SPARK_HOME (e possibilmente altre variabili di ambiente che si sta utilizzando) per puntare a questa nuova directory anziché alla precedente.

E si dovrebbe fare, dopo il riavvio della macchina.

Si noti che:

Non è necessario rimuovere la distribuzione Spark precedente, a condizione che tutte le variabili di ambiente rilevante Punto a quello nuovo. In questo modo, puoi anche spostare rapidamente "avanti e indietro" tra la vecchia e la nuova versione, nel caso in cui tu voglia testare le cose (cioè devi semplicemente modificare le variabili d'ambiente rilevanti).
sudo era necessario nel mio caso; potrebbe non essere necessario per te in base alle tue impostazioni.
Dopo aver verificato che tutto funzioni correttamente, è consigliabile eliminare il file tgz scaricato.
È possibile utilizzare la stessa identica procedura per eseguire l'aggiornamento a versioni future di Spark, come vengono fuori (piuttosto veloce). Se si esegue questa operazione, assicurarsi che i precedenti file tgz siano stati eliminati o modificare il comando tar in alto in modo che facciano riferimento a un file specifico (ad esempio, i caratteri jolly * come sopra).

fonte

2015-11-25 11:10:49 desertnaut

Ma io non posso salvare il processo attualmente in esecuzione, come un Hadoop aggiornamento in sequenza, giusto? – ribamar

Impostare il SPARK_HOME-/opt/spark
Download l'ultima pre-costruito cioè binario spark-2.2.1-bin-hadoop2.7.tgz - possono utilizzare wget
Creare il link simbolico all'ultima scaricare - ln -s /opt/spark-2.2.1 /opt/spark̀

Per ogni nuova versione scaricata basta creare t egli link simbolico a esso (fase 3)

ln -s /opt/spark-x.x.x /opt/spark̀

fonte

2017-12-11 16:14:40

Come aggiornare Spark alla versione più recente?

risposta

Problemi correlati