Anche se, è troppo tardi per rispondere alla tua domanda ma solo potrebbe aiutare gli altri..in primo luogo discuteremo il ruolo di Hadoop 1.X demoni e poi i vostri problemi ..
1. Qual è il ruolo del nome secondario nodo non è esattamente un nodo di backup. legge un registro di modifica e crea file fsimage aggiornati per il nodo del nome periodicamente. ottiene periodicamente i metadati dal nodo del nome e lo mantiene e lo utilizza quando il nodo del nome fallisce. 2. qual è il ruolo del nome nodo è il responsabile di tutti i daemon. il suo master jvm proceess che gira al nodo principale. interagisce con i nodi dati.
3. qual è il ruolo di Job Tracker accetta il lavoro e lo distribuisce ai tracker di attività per l'elaborazione nei nodi di dati. la sua chiamata come mappa processo
4. qual è il ruolo di inseguitori compito eseguirà programma previsto elaborazione sui dati esistenti al nodo dati. quel processo è chiamato come mappa.
limitazioni di hadoop 1.X
- singolo punto di errore che è il nodo nome in modo da poter mantenere hardware di alta qualità per il nodo nome. se il nodo nome non tutto sarà inaccessibile
Solutions soluzione a singolo punto di errore è Hadoop 2.X che fornisce alta disponibilità.
high availability with hadoop 2.X
ora tuoi argomenti ....
Come possiamo ripristinare tutti i dati del cluster se succede qualcosa? se cluster non riesce siamo in grado di riavviarlo ..
Se un nodo è fallito prima del completamento di un lavoro, quindi non c'è lavoro in attesa di Job Tracker, è che il lavoro continui o riavviare dal primo nel nodo libera? abbiamo di default 3 repliche di dati (intendo blocchi) per ottenere elevata disponibilità dipende da amministratore che quanto le repliche ha stabilito ... così inseguitori di lavoro proseguirà con altra copia dei dati su altri nodo di dati
possiamo usare il programma C in Mapreduce (ad esempio, Bubble sort in mapreduce)? fondamentalmente mapreduce è un motore di esecuzione che risolverà o processerà un problema di big data in modalità distribuita (storage plus processing). stiamo eseguendo la gestione dei file e tutte le altre operazioni di base utilizzando la programmazione di mapreduce in modo che possiamo usare qualsiasi lingua in cui possiamo gestire i file secondo i requisiti.
architettura Hadoop 1.X hadoop 1.x has 4 basic daemons
ho appena dato una prova. Spero che ti possa aiutare così come gli altri.
Suggerimenti/miglioramenti sono i benvenuti.
fonte
2016-09-18 08:12:35
Un sacco di persone chiamano il nodo secondario "il nodo di controllo" ora, che è una buona cosa. –
Qualsiasi linguaggio di programmazione che può leggere/scrivere su STDIN/STDOUT può essere utilizzato con Hadoop Streaming. Ci sono un paio di [framework] (http://goo.gl/aaVYN) che rendono più facile lo streaming Hadoop. –