2016-01-25 46 views
6

Sono in fase di pianificazione di un cluster multivoda Hadoop in un ambiente basato su Docker. Quindi dovrebbe essere basato su un sistema virtualizzato leggero e facile da usare. L'architettura corrente (relativa alla documentazione) contiene 1 nodo principale e 3 nodi slave. Questa macchina host utilizza il filesystem HDFS e KVM per la virtualizzazione. L'intero cloud è gestito da Cloudera Manager. Ci sono diversi moduli Hadoop installati su questo cluster. C'è anche un servizio di caricamento dati NodeJS. Questa volta dovrei creare l'architettura Docker basata. Ho letto diversi tutorial e ho alcune opinioni, ma anche domande aperte.Cluster Hadoop a più nodi con finestra mobile

A. Cosa ne pensi, è https://github.com/Lewuathe/docker-hadoop-cluster una buona base per il mio progetto? Ho trovato anche un ufficiale image, ma è single-node.

B. In che modo i requisiti di sistema cambiano se desidero farlo in un unico contenitore? Sarebbe fantastico, perché questa architettura dovrebbe funzionare in luoghi diversi, quindi i cambiamenti possono essere facilmente trasferiti tra queste posizioni. La sincronizzazione tra questi cosiddetti cloni sarebbe importante.

C. Avete altre idee, forse le migliori pratiche?

risposta

0

Per rispondere alla sua domanda C, si consiglia di controllare la piattaforma software di BlueData:. http://www.bluedata.com/blog/2015/06/docker-containers-big-data-clusters

E 'progettato per funzionare a più nodi cluster Hadoop in un ambiente Docker-based e non v'è una versione gratuita disponibile per il download (puoi anche eseguirlo in un'istanza AWS EC2).

+0

16 GB di RAM sul laptop? Praticamente, quindi dovrei usare Amazon Machine Image. –

+0

Esatto - richiede una macchina piuttosto robusta. Consigliamo 16 GB di RAM, ma occorrono almeno 10 GB di RAM dedicata per eseguire una configurazione minima multi-nodo (ad esempio un cluster a due nodi di una singola distribuzione Hadoop) o più distribuzioni sul laptop. – BlueData

+0

Ma come fai notare, puoi usare invece l'immagine della macchina di Amazon. – BlueData

-1

Questo lavoro è già stato fatto per voi, in realtà:

https://hub.docker.com/r/cloudera/clusterdock/

Esso comprende un multinodo CDH cluster di preconfezionati, con Cloudera manager come componente opzionale per la gestione del cluster et al.

Problemi correlati