Uno degli esempi principali utilizzati per dimostrare la potenza di MapReduce è Terasort benchmark. Ho difficoltà a comprendere le basi dell'algoritmo di ordinamento utilizzato nell'ambiente MapReduce.Come funziona l'algoritmo di ordinamento MapReduce?
Per me l'ordinamento consiste semplicemente nel determinare la posizione relativa di un elemento in relazione a tutti gli altri elementi. Quindi l'ordinamento implica il confronto di "tutto" con "tutto". Il tuo algoritmo di ordinamento medio (veloce, bolla, ...) lo fa semplicemente in modo intelligente.
Nella mia mente suddividere il set di dati in molti pezzi significa che è possibile ordinare un singolo pezzo e quindi è ancora necessario integrare questi pezzi nel set di dati 'completo' completamente ordinato. Dato il dataset di terabyte distribuito su migliaia di sistemi, mi aspetto che questo sia un compito enorme.
Quindi, come è fatto? Come funziona questo algoritmo di ordinamento MapReduce?
Grazie per avermi aiutato a capire.
Comprendo (la maggior parte) i concetti di MapReduce come descritto nei documenti citati. Sto cercando di capire l'algoritmo di ordinamento. –