Funzionamento di RecordReader in Hadoop

Qualcuno può spiegare come funziona realmente il RecordReader? Come funzionano i metodi nextkeyvalue(), getCurrentkey() e getprogress() dopo l'avvio del programma?Funzionamento di RecordReader in Hadoop

fonte

2012-06-08 Amnesiac

(nuova API): La classe predefinita Mapper ha un metodo run che assomiglia a questo:

public void run(Context context) throws IOException, InterruptedException { 
    setup(context); 
    while (context.nextKeyValue()) { 
     map(context.getCurrentKey(), context.getCurrentValue(), context); 
    } 
    cleanup(context); 
}

I metodi Context.nextKeyValue(), Context.getCurrentKey() e Context.getCurrentValue() sono wrapper per le RecordReader metodi. Vedi il file sorgente src/mapred/org/apache/hadoop/mapreduce/MapContext.java.

Quindi, questo ciclo esegue e chiama il metodo map(K, V, Context) dell'implementazione Mapper.

In particolare, che altro vorresti sapere?

fonte

2012-06-08 10:53:48

@ Chris..Thts molto utile .. ... e puoi spiegarci che split e dischi sono in immagine in un registratore? Sono confuso ... – Amnesiac

Le suddivisioni sono create da InputFormat e derivano dai file di input che si passano, indipendentemente dal fatto che i file di input siano divisibili e altre opzioni passate come la dimensione massima di max/min –

Ogni divisione è quindi elaborato per produrre i record che vengono passati al metodo della mappa –

org.apache.hadoop.mapred.MapTask - runNewMapper()

Imp passi:

crea nuovo mapper
ottenere spaccato di ingresso per il mapper
ottieni il recordreader per lo split
inizializzare lettore record di
con lettore di registrazione Scorrere getNextKeyVal() e la chiave, val di mapper mappa metodo
passare ripulire

fonte

2016-01-15 16:18:52

Funzionamento di RecordReader in Hadoop

risposta

Problemi correlati