Comprendere un algoritmo di ridimensionamento della mappa per il calcolo della sovrapposizione

Desidero aiuto per la comprensione dell'algoritmo. Ho incollato prima la spiegazione dell'algoritmo e poi i miei dubbi.Comprendere un algoritmo di ridimensionamento della mappa per il calcolo della sovrapposizione

Algoritmo :(Per calcolare la sovrapposizione tra coppie di record)

Dato un parametro definito dall'utente K, il file DR (* Formato: record_id, dati *) è suddivisa in blocchi K quasi equi dimensioni, in modo tale che i dati di un documento, Di cade nel pezzo I/K th.

Abbiamo annullato la funzione di partizionamento di Hadoop che associa una chiave emessa dal mappatore a un'istanza di riduttore. Ogni tasto (i, j) è mappato su un riduttore nel gruppo j/Kth.

La chiave speciale i, * e il valore associato, ovvero i dati del documento vengono replicati al massimo K volte, in modo che l'intero contenuto del documento possa essere consegnato ad ogni riduttore. Ogni riduttore in un gruppo ha quindi bisogno di recuperare e caricare in memoria solo una porzione di file DR, la cui dimensione può essere impostata arbitrariamente piccola variando K. In questo modo è possibile calcolare la sovrapposizione. Ciò si ottiene a costo di replicare i documenti consegnati tramite il framework MapReduce.

Dubbi:

ho fatto alcune ipotesi:

Dichiarazione: ogni tasto (i, j) è mappato ad un riduttore del/gruppo Kth j. Presupposto: K riduce i nodi presenti e la chiave è mappata al nodo di riduzione j/Kth.

Dubbio: alcuni nodi di riduzione sono raggruppati? diciamo 0,1,2 nodi sono raggruppati come Gruppo-0?

Dichiarazione: i dati del documento vengono replicati al massimo K volte, in modo che l'intero contenuto del documento possa essere consegnato ad ogni riduttore.

Quindi questo significa che K è uguale a no. di nodi di riduzione? Altrimenti, stiamo sprecando i nodi di calcolo, senza usarli correttamente?

Principale dubbio: K è uguale al numero di nodi di riduzione ??

Sperando in risposte!

Grazie!

fonte

2013-03-10 Mahalakshmi Lakshminarayanan

Non credo che ci stai dando sufficienti informazioni per capire questo algoritmo ... –

Fondamentalmente ci sono due tipi di uscite Mapper: 1. , –

Fondamentalmente ci sono due tipi di uscite mapper: a . chiave: , val: b. chiave: , val: . Il primo tipo di uscite può raggiungere qualsiasi riduttore in base alla seconda parte della seconda parte della chiave, cioè j. L'obiettivo è raggruppare insieme qualsiasi record di istanze ridotte da qualsiasi output del programma di analisi che abbia la stessa "i" nella prima parte della chiave.La chiave deve essere replicata k volte per raggiungere ogni istanza ridotta, in modo che ogni record di intersezione con i come prima parte della chiave ottenga i dati. Significa che k deve essere replicato tante volte quanto il no. di ridurre i nodi ??? –

Verificare lo stesso programma che si interrompe dopo che i nodi non sono necessari contro il programma corrente. Trovo che di solito è meglio rompere un'operazione una volta che è finito.

Tuttavia, se l'operazione sa solo di elaborarla in seguito durante l'operazione, potrebbe essere necessario consentire al codice di continuare fino alla fine.

fonte

2013-04-18 11:21:49

Comprendere un algoritmo di ridimensionamento della mappa per il calcolo della sovrapposizione

risposta

Problemi correlati