2013-10-23 14 views
5

Ho avuto due dubbi concettuali legate alla MapReduce e hadoop.I conoscere un semplice programma di MapReduce un'iterazione, sapere che cos'è un mapper, riduttore, shuffler è .. Ma ancora voglia di conoscere le seguenti domandequando viene utilizzato un mappatore/riduttore di identità?

1) quando si riduce la mappa iterativa?

2) so che mapper/riduttore di identità fornisce la stessa uscita dell'input di alimentazione. Ma quando usiamo un mappatore/riduttore di identità?

+0

Questo è probabilmente il modo migliore di porre due domande separate. –

+0

mappa identità significa solo mappa? –

risposta

2

1) Un esempio di un algoritmo MR iterativo è l'algoritmo del percorso più breve di Dijkstra. Ad ogni iterazione vengono esplorati i vicini più vicini di tutti i nodi attivi, la fase di riduzione viene utilizzata per verificare se il nodo di destinazione è già stato raggiunto. Altri esempi sono gli amici di amici di Facebook (FoF) per trovare l'algoritmo di suggerire nuovi amici.

2) Un mapper identità viene utilizzato può essere utilizzato (tra gli altri!) Se si vuole solo sorta il vostro input. Un riduttore di identità può essere utilizzato ad esempio per implementare gli algoritmi in modo imbarazzante in cui si utilizzano solo i mappatori per eseguire le attività parallele ma si desidera che le coppie di valori chiave di uscita vengano ordinate.

Spero che questo ti abbia messo sulla buona strada.

Si noti che oltre al riduttore di identità è anche possibile impostare NO riduttore (quindi l'output della mappa non è ordinato).

+0

Il partizionamento totale dell'ordine (smistamento completo) non è possibile utilizzando il riduttore di identità. Ordina solo i record dei riduttori individuali. Un altro caso d'uso sarebbe quello di unire l'output in un singolo file (specificando un singolo riduttore) dei dati di output di Mappper. – Ashish

+0

Sembra che tu stia confondendo (o erroneamente) le cose: se usi un partizionatore di ordini totale il tuo output sarà completamente ordinato con un riduttore di identità se non usi alcun partizionatore, l'output sarà ordinato per attività di riduzione ma non in generale. – DDW

+0

Ho detto la stessa cosa :-) Si può dire che è una sorta di raggruppamento (gli stessi tasti insieme) che possiamo ottenere usando il riduttore di identità – Ashish

Problemi correlati