Se il mio ambiente istituito è la seguente:
-64MB HDFS bloccare
-5 server tablet
-10 compresse di dimensioni 1 GB ciascuna per compressa serverQuando si tratta di MapReduce come vengono le compresse Accumulo mappati a un HDFS bloccare
Se si dispone di una tabella come di seguito:
rowA | f1 | q1 | v1
rowA | f1 | q2 | v2
rigaB | f1 | q1 | v3
rowC | f1 | q1 | v4
rowC | f2 | q1 | v5
rowC | f3 | q3 | v6
Dalla piccola documentazione, so che tutti i dati relativi a rowA andranno su una compressa che potrebbe contenere o meno dati su altre righe, ovvero tutte o nessuna. Quindi le mie domande sono:
Come sono mappate le tavolette su un blocco Datanode o HDFS? Ovviamente, un tablet è diviso in più blocchi HDFS (8 in questo caso) quindi dovrebbero essere memorizzati sullo stesso o su uno o più datanode diversi o non importa?
Nell'esempio precedente, tutti i dati su RowC (o A o B) andranno sullo stesso blocco HDFS o su blocchi HDFS diversi?
Quando si esegue una mappa ridurre il lavoro quanti mapper dovrei ottenere? (uno per blocco hdfs? o per tablet? o per server?)
Grazie in anticipo per qualsiasi suggerimento.
Non sicuro. Per curiosità, perché sei preoccupato per il numero di mapper? In generale, avvieresti gli scanner Accumulo per accedere ai dati nelle righe. Gli scanner forniscono un livello di astrazione, quindi non è necessario implementare lavori MapReduce da soli. – 10flow
Sto scrivendo mapreduce il lavoro che legge e scrive su tabelle cumulative. Nell'esempio precedente fammi richiamare tutti i dati da una riga, un "record". Quindi sto cercando di capire l'ordine in cui questi documenti entreranno. Che, naturalmente, dipende da quanto sono diffusi. – chapstick