Ho letto molto su Hadoop e Map-Reduce in esecuzione su cluster di macchine. Qualcuno sa se la distribuzione di Apache può essere eseguita su un SMP con diversi core. In particolare, è possibile eseguire più processi di riduzione della mappa sulla stessa macchina. Lo scheduler si occuperà di diffonderli su più core. Grazie. - KGHadoop e map-reduce su macchine multicore
risposta
Sì. Avete cartina multipla e ridurre slot in ogni macchina che vengono determinati con la RAM e CPU (ogni istanza JVM deve 1GB di default così una macchina 8 GB con 16 core dovrebbe ancora avere 7 slot un'attività)
da hadoop wiki
Utilizzare la manopola di configurazione: mapred.tasktracker.map.tasks.maximum e mapred.tasktracker.reduce.tasks.maximum per controllare il numero di mappe/riduce spawn contemporaneamente su un TaskTracker. Per impostazione predefinita, il valore è impostato su 2, quindi si vedono un massimo di 2 mappe e 2 si riduce a un'istanza data su un TaskTracker.
È possibile impostare quelli su base per-tasktracker per riflettere con precisione l'hardware (ad esempio, impostare quelli su un numero più elevato su un tasktracker più potente ecc.).
È possibile utilizzare i framework leggeri MapReduce per computer multicore.
Per esempio
LeoTask: Un quadro MapReduce leggero, produttivo e affidabile per i computer multicore
Per Apache Hadoop 2.7.3, la mia esperienza è stata che permette FILATO consentirà inoltre supporto multi-core. Ecco una semplice guida per consentire filato su un singolo nodo:
configurazioneL'impostazione di default sembra funzionare abbastanza bene. Se si desidera ottimizzare l'utilizzo principale, è consigliabile impostare 'yarn.scheduler.minimum-allocation-vcores' e 'yarn.scheduler.maximum-allocation-vcores' all'interno di yarn-site.xml (https://hadoop.apache.org/docs/r2.7.1/hadoop-yarn/hadoop-yarn-common/yarn-default.xml)
Inoltre, vedere qui per istruzioni su come configurare una semplice sandbox Hadoop con supporto multicore: https://bitbucket.org/aperezrathke/hadoop-aee
- 1. Introduzione a MapReduce/Hadoop
- 2. Configurazione Hadoop: mapred. * Vs mapreduce. *
- 3. Impossibile eseguire un lavoro MapReduce su hadoop 2.4.0
- 4. Hadoop: come funziona OutputCollector durante MapReduce?
- 5. riutilizzare JVM in Hadoop mapreduce jobs
- 6. Hadoop MapReduce I file di input multiple
- 7. Concatenamento di Hadoop MapReduce con pipe (C++)
- 8. Domanda di base su Hadoop e file di input compressi
- 9. TwistedWeb su multicore/multiprocessore
- 10. Database Hadoop su cassandra
- 11. Hadoop MapReduce fornire le directory nidificate come input di lavoro
- 12. concatenamento Multi-Riduttori in un lavoro Hadoop MapReduce
- 13. Hadoop MapReduce - un file di output per ciascun input
- 14. Algoritmo di coefficiente di clustering locale distribuito (MapReduce/Hadoop)
- 15. Impossibile trovare o caricare la classe principale com.sun.tools.javac.Main hadoop mapreduce
- 16. Cluster Hadoop. 2 macchine veloci, 4 medie, 8 più lente?
- 17. come implementare il calcolo degli autovalori con MapReduce/Hadoop?
- 18. Hadoop: Fornire la directory come input per il lavoro MapReduce
- 19. Hadoop MapReduce ha "Impossibile risolvere il nome host" errore
- 20. MapReduce su AWS
- 21. CPU di assemblaggio e multicore
- 22. multicore e data.table in R
- 23. Streaming di dati e Hadoop? (non Hadoop Streaming)
- 24. In che modo Apache Flink è paragonabile a Mapreduce su Hadoop?
- 25. Mapreduce for dummies
- 26. Hadoop MapReduce: è possibile definire due mapper e riduttori in una classe di lavoro hasdoop?
- 27. per l'installazione di hadoop su laptop
- 28. È possibile stampare l'output di Mapper e riduttore per un singolo lavoro in Hadoop Mapreduce
- 29. metodi di impostazione e pulizia di Mapper/Reducer in Hadoop MapReduce
- 30. IPython.parallel non usa il multicore?