2013-02-11 7 views
6

Qualcuno ha provato a testare le prestazioni dei nodi di dati su più data center? Soprattutto su reti con piccoli tubi. Non riesco a trovare troppe informazioni su di esso e le informazioni che ho trovato sono vecchie (circa 2010) o proprietarie (sembra che DataStax abbia qualcosa). So che Hadoop supporta la conoscenza del rack ma, come ho detto, non ho visto alcuna documentazione per l'ottimizzazione di un sistema per più data center.Distribuzione di nodi dati su più data center

risposta

5

L'ho provato con un cluster DataNode 12 disposto in un rapporto 2: 1 suddiviso tra due data center a circa 120 miglia di distanza. La latenza tra i data center era di ~ 4ms su 2 pipe da 1 GbE.

2 rack sono stati configurati nel sito A, 1 rack configurato nel sito B. Ogni "rack" aveva 4 macchine in esso. Stavamo fondamentalmente testando il sito B come sito "DR". Il fattore di replica era impostato su 3.

Per farla breve, funziona, ma la performance è stata davvero, davvero negativa. Sicuramente devi usare la compressione sulla tua fonte, mappare e ridurre le uscite al fine di ridurre l'I/O di scrittura, e se i collegamenti tra siti sono usati per qualcos'altro, riceverai dei timeout durante il trasferimento dei dati. TCP windowing avrebbe effettivamente limitato il nostro trasferimento a circa 4MBps, invece di un potenziale 100MBps + su una linea 1GbE.

Risparmia il mal di testa e usa i processi distcp per replicare i dati!

Problemi correlati