Desidero aiuto per la comprensione dell'algoritmo. Ho incollato prima la spiegazione dell'algoritmo e poi i miei dubbi.Comprendere un algoritmo di ridimensionamento della mappa per il calcolo della sovrapposizione
Algoritmo :(Per calcolare la sovrapposizione tra coppie di record)
Dato un parametro definito dall'utente K, il file DR (* Formato: record_id, dati *) è suddivisa in blocchi K quasi equi dimensioni, in modo tale che i dati di un documento, Di cade nel pezzo I/K th.
Abbiamo annullato la funzione di partizionamento di Hadoop che associa una chiave emessa dal mappatore a un'istanza di riduttore. Ogni tasto (i, j) è mappato su un riduttore nel gruppo j/Kth.
La chiave speciale i, * e il valore associato, ovvero i dati del documento vengono replicati al massimo K volte, in modo che l'intero contenuto del documento possa essere consegnato ad ogni riduttore. Ogni riduttore in un gruppo ha quindi bisogno di recuperare e caricare in memoria solo una porzione di file DR, la cui dimensione può essere impostata arbitrariamente piccola variando K. In questo modo è possibile calcolare la sovrapposizione. Ciò si ottiene a costo di replicare i documenti consegnati tramite il framework MapReduce.
Dubbi:
ho fatto alcune ipotesi:
Dichiarazione: ogni tasto (i, j) è mappato ad un riduttore del/gruppo Kth j. Presupposto: K riduce i nodi presenti e la chiave è mappata al nodo di riduzione j/Kth.
Dubbio: alcuni nodi di riduzione sono raggruppati? diciamo 0,1,2 nodi sono raggruppati come Gruppo-0?
Dichiarazione: i dati del documento vengono replicati al massimo K volte, in modo che l'intero contenuto del documento possa essere consegnato ad ogni riduttore.
Quindi questo significa che K è uguale a no. di nodi di riduzione? Altrimenti, stiamo sprecando i nodi di calcolo, senza usarli correttamente?
Principale dubbio: K è uguale al numero di nodi di riduzione ??
Sperando in risposte!
Grazie!
Non credo che ci stai dando sufficienti informazioni per capire questo algoritmo ... –
Fondamentalmente ci sono due tipi di uscite Mapper: 1., –
Fondamentalmente ci sono due tipi di uscite mapper: a . chiave: , val: b. chiave: , val: . Il primo tipo di uscite può raggiungere qualsiasi riduttore in base alla seconda parte della seconda parte della chiave, cioè j. L'obiettivo è raggruppare insieme qualsiasi record di istanze ridotte da qualsiasi output del programma di analisi che abbia la stessa "i" nella prima parte della chiave.La chiave deve essere replicata k volte per raggiungere ogni istanza ridotta, in modo che ogni record di intersezione con i come prima parte della chiave ottenga i dati. Significa che k deve essere replicato tante volte quanto il no. di ridurre i nodi ??? –