Domanda

Qualcuno può delineare le diverse differenze tra le varie distribuzioni Hadoop disponibili:

usando la distro di Apache Hadoop come base.

Esiste un buon motivo per utilizzare una di queste distribuzioni sulla distribuzione standard di Apache Hadoop?

È stato utile?

Soluzione

Disclaimer: sono stato internato a Cloudera quest'estate (ma alcuni dei miei migliori amici sono a Yahoo! :-))

La distribuzione Yahoo è una versione di Hadoop 20 che eseguono (eseguito?) su alcuni sottogruppi dei loro cluster. Include una serie di patch per stabilità, correzioni di bug, ecc. È una versione sorgente; non ha funzionalità di amministrazione come pacchetti rpm o debian, ecc.

La distribuzione di Cloudera è pacchetti come rpms e debs (anche il sorgente è disponibile). Ciò significa che è possibile ottenere aggiornamenti tramite metodi standard, ecc. Include anche patch di stabilità e correzione di bug. È costantemente mantenuto (per non dire che Yahoo non lo è - suppongo che si possa semplicemente andare su github e controllare quando lo hanno aggiornato l'ultima volta). Contiene anche Pig and Hive.

La distribuzione di Hadoop 20 di Cloudera è in beta e 18 è considerata stabile (di più su questo Blog di Cloudera ). La versione 18 include anche pacchetti per Hive e Pig; per 20, devi costruirli tu stesso (non ci sono ancora versioni ufficiali di Pig o Hive che supportano 20, anche se esistono patch). Potrebbe esserci una significativa sovrapposizione tra le versioni Cloudera e Yahoo di 20; entrambi forniscono manifest, in modo da poter verificare. L'ultima documentazione delle distribuzioni di Cloudera è disponibile all'indirizzo http://archive.cloudera.com

Yahoo non fornisce supporto per la loro distribuzione; forniscono la loro versione patchata come servizio alla comunità, così le persone interessate possono costruire ciò che Yahoo esegue internamente. Data la dimensione dei cluster Yahoo, questo è un contributo significativo, soprattutto se non sei uno sviluppatore Hadoop che segue sempre i JIRA. Cloudera supporta la loro distribuzione commerciale, oltre a fornire un po 'di supporto alla comunità tramite le mailing list di Hadoop e, per problemi specifici di distro, sulla loro pagina GetSatisfaction.

Entrambi sono piuttosto diversi dalla distro di Apache alla vaniglia poiché li patch tra le versioni (la versione cloudera di 20 ha oltre 60 patch!).

Altri suggerimenti

Yahoo ha interrotto la propria distribuzione e si concentra su Apache Hadoop.

http://developer.yahoo.com/blogs/hadoop/posts/2011/01/announcement-yahoo-focusing-on-apache-hadoop-discontinuing-the-yahoo-distribution-of -hadoop /

http: / /www.cloudera.com/blog/2011/02/some-news-related-to-the-apache-hadoop-project/

Di recente, HortonWorks (www.hortonworks.com) è stato espulso da Yahoo. E ora anche HortonWorks fornirà supporto a differenza di Yahoo.

http://www.hortonworks.com/about-us/our-manifesto /

Cloudera è sulla stessa linea di HortonWorks

http://www.cloudera.com/products-services/

La differenza principale è che HortonWorks vuole rendere le distribuzioni di Apache stabili, facili da installare e altre. Mentre Cloudera ha la propria distribuzione CDH * basata su Apache Hadoop.

Esistono diversi motivi per scegliere una distribuzione Hadoop come Cloudera, Hortonworks o MapR anziché Apache Hadoop. Due grandi vantaggi sono il supporto degli strumenti e il supporto commerciale. Hai anche molti problemi a "raccogliere e integrare" tutti i framework Hadoop come Pig, Hive, ecc. nelle versioni giuste e compatibili.

Dai un'occhiata al mio articolo su InfoQ. Spiega le differenze tra Apache Hadoop, le distribuzioni di Hadoop e le suite di big data e quando usare quale:

http://www.infoq.com/articles/BigDataPlatform

Cordiali saluti,

Kai Wähner (@KaiWaehner, www.kai-waehner.de/blog)

SquareCog ha ragione su quasi tutti i punti tranne: Yahoo! la distribuzione è ciò che viene eseguito su tutti i cluster di produzione di Yahoo !, non un sottoinsieme di essi. Si tratta di oltre 25.000 macchine in totale. Yahoo! la distribuzione ha avuto i test completi e end-to-end necessari per garantire un funzionamento affidabile e coerente. L'altra distribuzione è più liberale sull'applicazione delle patch e quindi potrebbe avere più funzionalità, ma non è stata testata così ampiamente.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top