+1 con la spiegazione Dell. A mio parere, i nodi periferici in un cluster Hadoop sono in genere nodi responsabili dell'esecuzione delle operazioni lato client di un cluster Hadoop. Solitamente i nodi periferici sono tenuti separati dai nodi che contengono servizi Hadoop come HDFS, MapReduce, ecc, principalmente per mantenere separate le risorse di calcolo. Per cluster più piccoli che hanno solo pochi nodi, è normale vedere i nodi giocare una combinazione ibrida di ruoli per i servizi principali (JT, NN, ecc.), I servizi slave (TT, DN, ecc.) E i servizi gateway.
Si noti che i servizi Hadoop master e slave in esecuzione sullo stesso nodo non sono una configurazione ideale e possono causare problemi di ridimensionamento e risorse in base a cosa è in uso. Questo tipo di configurazione è generalmente presente in un ambiente di sviluppo su scala ridotta.
Detto questo, ecco alcune risposte alle tue domande scritte:
1) Se il nodo bordo deve essere parte del cluster Il nodo bordo non deve essere parte del cluster, se si è al di fuori del cluster (il che significa che non ha alcun ruolo di servizio Hadoop specifico in esecuzione su di esso), avrà bisogno di alcuni elementi di base come i binari di Hadoop e gli attuali file di configurazione del cluster Hadoop per inviare i lavori sul cluster.
2) Quali vantaggi abbiamo se si trova all'interno del cluster? A seconda della distribuzione in uso, i nodi periferici eseguiti all'interno del cluster consentono la gestione centralizzata di tutte le voci di configurazione Hadoop sui nodi del cluster, il che aiuta a ridurre la quantità di amministrazione necessaria per aggiornare i file di configurazione. Di solito questo è un approccio one-to-many, in cui le voci di configurazione vengono aggiornate in una posizione e inviate a tutti (molti) nodi nel cluster.
Tuttavia, quando uno dei nodi all'interno del cluster viene anche utilizzato come nodo di bordo, ci sono risorse di CPU e memoria che vengono consumate dalle operazioni client che riducono le risorse disponibili che potrebbero essere utilizzate dai servizi Hadoop in esecuzione in quel nodo.
3) Memorizza blocchi di dati in hdf? A meno che il nodo periferico non sia configurato con un servizio DataNode, i blocchi di dati non verranno memorizzati su quel nodo.
4) Il nodo di bordo deve trovarsi al di fuori del cluster? Come già detto, può dipendere dall'ambiente cluster e dal caso d'uso; Uno dei motivi di supporto per configurarlo al di fuori del cluster è quello di mantenere separati i servizi client e Hadoop.
Mantenere un nodo periferico separato consente a quel nodo di utilizzare le risorse di calcolo complete disponibili per l'elaborazione Hadoop.
Spero che questo aiuti!