2012-11-13 11 views
6

Nei contatori di job hadoop, qual è la differenza tra "Output output materialized bytes" rispetto a "output output byte"? Non vedo il primo quando disabilito la compressione dell'output delle mappe, quindi suppongo che siano i byte di output reali (compressi) mentre i secondi sono byte non compressi?"Uscita mappa byte materializzati" vs "byte di output mappa"

risposta

10

Penso che tu abbia ragione. da http://hadoop.apache.org/docs/r1.0.4/releasenotes.html:

MAPREDUCE-2365. Nuovi contatori per FileInputFormat (BYTES_READ) e FileOutputFormat (BYTES_WRITTEN). Nuovo contatore MAP_OUTPUT_MATERIALIZED_BYTES per MapOutputSize compresso. (Siddharth Seth)

(Modifiche Dal Hadoop 0.20.2)

.............................. .................................................. .................................................. .................

Ecco una citazione da White di Tom "Guida Hadoop Definitive", 3a edizione (tabella 8-2 a pagina 261):

"Map output materialised bytes" - Il numero di byte di output della mappa effettivamente scritto sul disco. Se la compressione dell'output della mappa è abilitata, ciò si riflette nel valore del contatore.

"Map output bytes" - Il numero di byte di output non compresso prodotto da tutte le mappe nel lavoro. Incrementato ogni volta che il metodo collect() viene chiamato sulla mappa OutputCollector.

+0

Nella pagina dei dettagli del lavoro non mi sembra di vedere "Output byte materializzati". Sto usando Hadoop 2.0.0-mr1-cdh4.2.1. Devo apportare qualche modifica alle impostazioni. –