Dopo aver letto http://gbif.blogspot.com/2011/01/setting-up-hadoop-cluster-part-1-manual.html siamo giunti alla conclusione che il cluster di hadoop a 6 nodi potrebbe utilizzare un po 'di ottimizzazione, e io.sort.factor sembra essere un buon candidato, in quanto controlla un importante compromesso. Stiamo pianificando di ottimizzare e testare, ma pianificare in anticipo e sapere cosa aspettarsi e cosa guardare sembra ragionevole.Come posso sapere se il mio parametro di configurazione di hodoop io.sort.factor è troppo piccolo o troppo grande?
Attualmente è il 10. Come potremmo sapere che ci sta causando troppe fusioni? Quando lo solleviamo, come faremmo a sapere che sta causando l'apertura di troppi file?
Nota che non possiamo seguire gli estratti del registro blog direttamente come è aggiornato alla CDH3b2, e stiamo lavorando su CDH3u2, e hanno cambiato ...