Qualcuno ha provato a testare le prestazioni dei nodi di dati su più data center? Soprattutto su reti con piccoli tubi. Non riesco a trovare troppe informazioni su di esso e le informazioni che ho trovato sono vecchie (circa 2010) o proprietarie (sembra che DataStax abbia qualcosa). So che Hadoop supporta la conoscenza del rack ma, come ho detto, non ho visto alcuna documentazione per l'ottimizzazione di un sistema per più data center.Distribuzione di nodi dati su più data center
risposta
L'ho provato con un cluster DataNode 12 disposto in un rapporto 2: 1 suddiviso tra due data center a circa 120 miglia di distanza. La latenza tra i data center era di ~ 4ms su 2 pipe da 1 GbE.
2 rack sono stati configurati nel sito A, 1 rack configurato nel sito B. Ogni "rack" aveva 4 macchine in esso. Stavamo fondamentalmente testando il sito B come sito "DR". Il fattore di replica era impostato su 3.
Per farla breve, funziona, ma la performance è stata davvero, davvero negativa. Sicuramente devi usare la compressione sulla tua fonte, mappare e ridurre le uscite al fine di ridurre l'I/O di scrittura, e se i collegamenti tra siti sono usati per qualcos'altro, riceverai dei timeout durante il trasferimento dei dati. TCP windowing avrebbe effettivamente limitato il nostro trasferimento a circa 4MBps, invece di un potenziale 100MBps + su una linea 1GbE.
Risparmia il mal di testa e usa i processi distcp per replicare i dati!
- 1. Apache Zookeeper: distribuzione di nodi tra i data center
- 2. Suggerimenti sulla distribuzione di dati/codice Python su nodi worker?
- 3. È sicuro usare etcd su più data center?
- 4. elasticsearch - posso utilizzare più nodi "master"? perché?
- 5. Strategia di replica cross data center in elasticsearch
- 6. Game Center - Invio e ricezione dati
- 7. Nodi distinti su più chiavi con XSLT
- 8. Dove si trova il data center di Firebase?
- 9. Fattore di replica di Cassandra in presenza di più data center
- 10. Alternativa ad Amazon S3 per il data center?
- 11. Distribuzione dello stato su più macchine
- 12. Modifica dei valori in pda dati del data center senza lavoro
- 13. Sharding automatico di una mappa Java su più nodi
- 14. Adattamento di una distribuzione ai dati - MATLAB
- 15. Center a SKLabelNode su un SKSpriteNode
- 16. Distribuzione di più servlet su un singolo server Tomcat
- 17. Distribuzione di più app django su Apache con mod_wsgi
- 18. query LINQ su un elenco di oggetti per ottenere distribuzione basata su più campi
- 19. La distribuzione ClickOnce lascia più versioni (sì, più di due)
- 20. Come ottenere il nome del data center Cassandra in cqlsh
- 21. Distribuzione su EC2
- 22. Stesso formato della data su più localizzazioni
- 23. Distribuzione di più istanze di un'applicazione Rails - stesso codice, più
- 24. Mesos, Marathon, il cloud e 10 data center - Come parlare tra loro?
- 25. Analitica e data mining di dati seduti su Cassandra
- 26. Invio e ricezione di dati via Game Center (GameKit) su smantellamenti 3G Utilizzo
- 27. Come selezionare più nodi in diversi livelli?
- 28. Come avere più attributi di associazione dati su un elemento?
- 29. Distribuzione casuale non uniforme con proporzione data
- 30. R: genera dati da una distribuzione di densità di probabilità