2009-09-11 13 views

risposta

14

Disclaimer: internato a Cloudera questa estate (ma alcuni dei miei migliori amici sono a Yahoo! :-))

La distribuzione di Yahoo è una versione di Hadoop 20 che corrono (corse?) Su un sottoinsieme dei loro grappoli. Include un set di patch per la stabilità, correzioni di bug, ecc. È una versione sorgente; non ha funzioni di amministrazione come pacchetti rpm o debian, ecc.

La distribuzione di Cloudera è pacchetti come rpms e deb (anche la sorgente è disponibile). Ciò significa che è possibile ottenere aggiornamenti tramite metodi standard, ecc. Include anche patch di stabilità e correzione errori. È costantemente mantenuto (per non dire che Yahoo non lo è), suppongo che si possa andare su github e controllare quando l'hanno aggiornato l'ultima volta). Prepara anche Pig e Hive.

La distribuzione di Cloudado di Hadoop 20 è in beta e 18 è considerata stabile (più su questo su Cloudera blog). La versione 18 include anche pacchetti per Hive e Pig; per 20, devi costruirli tu stesso (non ci sono ancora versioni ufficiali di Pig o Hive che supportano 20, anche se esistono patch). Potrebbe esserci una significativa sovrapposizione tra le versioni Cloudera e Yahoo di 20; entrambi forniscono manifesti, quindi puoi controllare. L'ultima documentazione delle distribuzioni di Cloudera è http://archive.cloudera.com

Yahoo non fornisce supporto per la loro distribuzione; forniscono la loro versione con patch come servizio alla comunità, così le persone che sono interessate possono costruire ciò che Yahoo esegue internamente. Data la dimensione dei cluster di Yahoo, questo è un contributo significativo, soprattutto se non sei uno sviluppatore Hadoop che segue sempre i JIRA. Cloudera supporta commercialmente la loro distribuzione, oltre a fornire un supporto per la comunità tramite le mailing list di Hadoop e, per questioni distro specifiche, sulla loro pagina GetSatisfaction.

Entrambe sono molto diverse dalla distro Apache in versione vanilla, dato che vengono applicate tra una release e l'altra (la versione cloudera di 20 ha più di 60 patch!).

+0

HortonWorks è stato distribuito da Yahoo e ora fornisce supporto per Hadoop. –

0

SquareCog ha ragione su quasi tutti i punti tranne: Yahoo! la distribuzione è ciò che viene eseguito su tutti i cluster di produzione di Yahoo !, non un sottoinsieme di essi. Questo è più di 25.000 macchine in totale. Yahoo! la distribuzione ha avuto l'estensivo test end-to-end necessario per garantire un funzionamento affidabile e coerente. L'altra distribuzione è più liberale sull'applicazione delle patch e quindi potrebbe avere più funzionalità, ma non è stata testata in modo estensivo.

4

Yahoo ha interrotto la propria distribuzione e si concentra su Apache Hadoop.

http://developer.yahoo.com/blogs/hadoop/posts/2011/01/announcement-yahoo-focusing-on-apache-hadoop-discontinuing-the-yahoo-distribution-of-hadoop/

http://www.cloudera.com/blog/2011/02/some-news-related-to-the-apache-hadoop-project/

Recentemente, Hortonworks (www.hortonworks.com) era filata di Yahoo. E ora HortonWorks fornirebbe supporto a differenza di Yahoo.

http://www.hortonworks.com/about-us/our-manifesto/

Cloudera è lungo le stesse linee come Hortonworks

http://www.cloudera.com/products-services/

La differenza principale è Hortonworks vuole fare le distribuzioni di Apache stabile, facile da installare e da altri. Mentre, Cloudera ha la propria distribuzione CDH * basata su Apache Hadoop.

1

Ci sono diversi motivi per scegliere una distribuzione Hadoop come Cloudera, Hortonworks o MapR invece di Apache Hadoop. Due grandi vantaggi sono il supporto degli strumenti e il supporto commerciale. Hai anche un sacco di problemi nel "raccogliere e integrare" tutti i framework Hadoop come Pig, Hive, ecc. In versioni corrette e compatibili.

Dai un'occhiata al mio articolo su InfoQ. Spiega le differenze tra Apache Hadoop, distribuzioni Hadoop e grandi suite di dati, e quando usare quale:

http://www.infoq.com/articles/BigDataPlatform

Con i migliori saluti,

Kai Wahner (@KaiWaehner, www.kai-waehner.de/blog)