Il parametro "mapred.min.split.size" modifica la dimensione del blocco in cui il file è stato scritto in precedenza? Presupponendo una situazione in cui I, all'avvio del mio JOB, passa il parametro "mapred.min.split.size" con un valore di 134217728 (128 MB). Che cosa è corretto dire su cosa succede?Comportamento del parametro "mapred.min.split.size" in HDFS
1 - Ciascun processo MAP equivale a 2 blocchi HDFS (presupponendo ciascun blocco 64 MB);
2 - Ci sarà una nuova divisione del mio file di input (precedentemente incluso HDFS) per occupare i blocchi in HDFS 128M;
Grazie mille – Alexandre
decisamente utile, grazie! – wakensky
Nota che [i valori sono espressi in byte] (https://github.com/linkedin/dr-elephant/wiki/Tuning-Tips#mapreduceinputfileinputformatsplitminsize), non in megabyte. Quindi per 128 MB dovresti specificare mapreduce.input.fileinputformat.split.minsize = 134217728 –