2014-07-25 9 views
6

Ho cercato di utilizzare Storm che è disponibile con l'installazione di Hortonworks 2.1 ma per evitare l'installazione di Hortonworks oltre a un'installazione di Cloudera (che contiene Spark), ho cercato di trovare un modo per utilizzare Tempesta in Cloudera.Uso di Storm in Cloudera

Se è possibile utilizzare sia Storm che Spark su una singola piattaforma, questo salverà le risorse aggiuntive necessarie per avere installazioni sia su Cloudera che su Hortonworks su una macchina.

+0

perché viene etichettato con apache-spark? – maasg

+0

Risolto il problema. Questa è una domanda stranamente formattata. –

+0

ok, non dovresti averlo taggato in SPARK. Grazie – abhinavgoyal02

risposta

5

È possibile utilizzare tempesta con l'installazione di Cloudera. Dovrai installarlo da solo e mantenerlo come tale. Non farà parte dello stack Cloudera ma ciò non dovrebbe impedirti di usarlo insieme a Hadoop se ne hai bisogno.

+0

ok, grande quindi sono i costi generali di installazione di STORM su cloudera così tanto che dovrei invece andare con Hortonworks per utilizzare STORM? – abhinavgoyal02

+0

Non posso davvero rispondere a questa domanda in quanto è molto soggettiva. Non penso che le spese generali per l'installazione e il mantenimento della tempesta siano un bel po 'dove è necessario cambiare fornitore, ma se si ritiene che sia così, probabilmente HW ha senso in quanto supportano sia Hadoop che Storm. – Naresh

0

È possibile utilizzare Storm accanto a Cloudera.

0

Tutte le precedenti sono vere, ma perché dovresti?

Spark include Spark Streaming, che consente di gestire i carichi di lavoro di elaborazione dei dati e di elaborazione degli stream/eventi utilizzando un'unica API. Spark/Streaming è già all'interno di CDH.

Quindi, perché caricarsi di due API diverse?

+0

Storm è true streaming, mentre Spark è micro-batching. Per alcune applicazioni quasi in tempo reale, la latenza sostenuta dai micro-lotti potrebbe avere un impatto finanziario. –

1

È possibile utilizzare Storm su qualsiasi piattaforma del fornitore. Tuttavia, la gestione dei cluster di tempesta è qualcosa che devi considerare. Storm non fa parte della distribuzione CDH. Cloudera Manager non gestisce il ciclo di vita dei servizi e delle configurazioni di tempesta, né monitora il cluster di tempesta, a meno che non sia disposto a scrivere autonomamente un'estensione Clouderea Manager. Al contrario, se si sceglie un fornitore come HDP, lo strumento di gestione di Ambari su HDP fornisce tutte le funzioni di gestione di cui sopra.

Se si dispone di un progetto di streaming su CDH, si consiglia vivamente di prendere in considerazione prima Apache Spark, in quanto fornisce lo stesso modello di programmazione per l'elaborazione in batch e in streaming. Non è necessario imparare una nuova API. Tuttavia, lo streaming di Apache Spark è micro-batch. Pertanto, in casi d'uso che richiedono un'elaborazione in tempo reale a bassa latenza sub-seconda, Storm è più adatto.

Problemi correlati