Disclaimer: internato a Cloudera questa estate (ma alcuni dei miei migliori amici sono a Yahoo! :-))
La distribuzione di Yahoo è una versione di Hadoop 20 che corrono (corse?) Su un sottoinsieme dei loro grappoli. Include un set di patch per la stabilità, correzioni di bug, ecc. È una versione sorgente; non ha funzioni di amministrazione come pacchetti rpm o debian, ecc.
La distribuzione di Cloudera è pacchetti come rpms e deb (anche la sorgente è disponibile). Ciò significa che è possibile ottenere aggiornamenti tramite metodi standard, ecc. Include anche patch di stabilità e correzione errori. È costantemente mantenuto (per non dire che Yahoo non lo è), suppongo che si possa andare su github e controllare quando l'hanno aggiornato l'ultima volta). Prepara anche Pig e Hive.
La distribuzione di Cloudado di Hadoop 20 è in beta e 18 è considerata stabile (più su questo su Cloudera blog). La versione 18 include anche pacchetti per Hive e Pig; per 20, devi costruirli tu stesso (non ci sono ancora versioni ufficiali di Pig o Hive che supportano 20, anche se esistono patch). Potrebbe esserci una significativa sovrapposizione tra le versioni Cloudera e Yahoo di 20; entrambi forniscono manifesti, quindi puoi controllare. L'ultima documentazione delle distribuzioni di Cloudera è http://archive.cloudera.com
Yahoo non fornisce supporto per la loro distribuzione; forniscono la loro versione con patch come servizio alla comunità, così le persone che sono interessate possono costruire ciò che Yahoo esegue internamente. Data la dimensione dei cluster di Yahoo, questo è un contributo significativo, soprattutto se non sei uno sviluppatore Hadoop che segue sempre i JIRA. Cloudera supporta commercialmente la loro distribuzione, oltre a fornire un supporto per la comunità tramite le mailing list di Hadoop e, per questioni distro specifiche, sulla loro pagina GetSatisfaction.
Entrambe sono molto diverse dalla distro Apache in versione vanilla, dato che vengono applicate tra una release e l'altra (la versione cloudera di 20 ha più di 60 patch!).
HortonWorks è stato distribuito da Yahoo e ora fornisce supporto per Hadoop. –