2012-01-12 18 views
8

Ok, sto cercando di imparare Hadoop e mapreduce. Voglio davvero iniziare con mapreduce e ciò che trovo sono molti, molti esempi semplificati di mapper e riduttori, ecc. Tuttavia, ho visto mancare qualcosa. Mentre un esempio che mostra quante occorrenze di una parola si trovano in un documento è semplice da comprendere, in realtà non mi aiuta a risolvere i problemi del "mondo reale". Qualcuno sa di un buon tutorial sull'implementazione di mapreduce in una situazione psuedo-realistica. Supponiamo, ad esempio, di utilizzare hadoop e mapreduce su un archivio dati simile a Adventureworks. Ora voglio ricevere ordini per un determinato prodotto nel mese di maggio. Come sarebbe quello sguardo da una prospettiva di hasdoop/mapreduce? (Mi rendo conto che questo potrebbe non essere il tipo di problema che mapreduce è destinato a risolvere ma, mi è venuto in mente rapidamente.)Mapreduce for dummies

Qualsiasi direzione sarebbe d'aiuto.

risposta

13

Il libro Hadoop: The Definitive Guide è un buon punto di partenza. I capitoli introduttivi dovrebbero essere davvero utili per capire dove è utile MapReduce e quando è necessario utilizzarlo. I capitoli più avanzati hanno un sacco di esempi più realistici del conteggio delle parole.

Se si desidera eseguire un'immersione più approfondita, è possibile controllare Data-Intensive Text Processing with MapReduce. Questo ha sicuramente un sacco di casi d'uso "reali", ma non sembra che ti interessi l'elaborazione del testo.


Per esempio particolare, le cose principali da realizzare sono:

  • fase La mappa è in gran parte per l'analisi, la trasformazione dei dati, e filtrando i dati. Pensate all'approccio record-per-record, condiviso-niente per l'elaborazione dei record. Nel conteggio delle parole, questo sta analizzando la linea e dividendo le parole.
  • La fase di riduzione è tutta basata sull'aggregazione: conteggio, calcolo della media, min/max, ecc. Nel conteggio delle parole, questo è il conteggio delle istanze della parola.

Quindi, se si desidera che tutti i record per un determinato prodotto nel mese di maggio, è possibile utilizzare un processo di sola mappa per filtrare tutti i dati e conservare solo i record desiderati. Tuttavia, dovresti davvero leggere su cosa sia utile Hadoop. La domanda che si adatterebbe meglio a Hadoop sarebbe: datemi un conteggio di quante volte ogni oggetto è stato acquistato in ogni mese (per costruire una matrice, forse). Molto raramente stai cercando documenti specifici come suggerisci tu.

Se stai cercando una piattaforma di accesso in tempo reale, dovresti dare un'occhiata allo HBase una volta che hai imparato a conoscere Hadoop.

+0

Eccezionale! Grazie mille! – RockyMountainHigh

+4

"Voglio vedere altri esempi oltre al conteggio delle parole" è un problema comune con le persone più recenti e, sfortunatamente, le migliori spiegazioni sono in stampa. –

4

Hadoop può essere utilizzato per una vasta gamma di problemi. Controlla questo post di blog dal atbrox. Inoltre, ci sono molte informazioni su Internet su Hadoop e MapReduce ed è facile perdersi. Quindi, here è l'elenco consolidato di risorse su Hadoop.

BTW, Hadoop - The Definitive Guide 3rd edition è previsto per maggio. Sembra che copra anche MRv2 (NextGen MapReduce) e include anche altri casi studio. La seconda edizione vale come menzionato da orangeoctopus.

+0

Collegamento interrotto .... – UpTheCreek

+0

aggiornato grazie –

0

MapReduce può essere un argomento complesso, quindi ho trovato più facile comprenderlo applicando il suo approccio a un problema semplice. Poi vado avanti per descrivere come MapReduce rende più semplice risolvere lo stesso problema in un cluster. Puoi dare un'occhiata nel mio articolo qui: Intro to Parallel Processing with MapReduce.

Fammi sapere se pensi che questo articolo faciliti la comprensione di MapReduce e Hadoop.