Pergunta

esquema pode alguém as várias diferenças entre os vários Hadoop Distribuições disponíveis:

usando a distro Apache Hadoop como uma linha de base.

Existe um boa razão para usando uma dessas distribuições mais o padrão Apache Hadoop distro?

Foi útil?

Solução

Disclaimer: eu internado em Cloudera neste verão (mas alguns dos meus melhores amigos estão em Yahoo!: -))

distribuição O Yahoo é uma versão do Hadoop 20 que correm (RAN?) Em algum subconjunto de seus clusters. Ele inclui um conjunto de manchas para a estabilidade e correcção de erros, etc. É uma fonte de libertação; ele não tem características amigas do administrador como pacotes RPM ou Debian, etc.

A distribuição Cloudera é pacotes como rpms e debs (fonte também está disponível). Isto significa que você pode obter atualizações através de métodos convencionais, etc. Ele também inclui correções de estabilidade e correção de bug. Ele é constantemente mantido (para não dizer o Yahoo não é - suponho que se poderia apenas ir no github e verificar quando eles última actualização-lo). Ele também pacotes Pig and Hive.

distribuição de Hadoop 20 de Cloudera está em beta, e 18 é considerado estável (mais sobre isso na Cloudera blogue ). A versão 18 também inclui pacotes para o Hive e Pig; para 20, você tem que construí-los a si mesmo (não há lançamentos oficiais de porco ou Hive que o apoio 20 ainda, embora existam manchas). Também pode haver uma sobreposição significativa entre as versões Cloudera e Yahoo de 20; ambos fornecem manifesta, para que possa verificar. A documentação mais recente de distros de Cloudera é em http://archive.cloudera.com

Yahoo não fornece suporte para a sua distribuição; eles fornecem a sua versão corrigida como um serviço para a comunidade, de modo que as pessoas que estão interessados ??pode construir o Yahoo é executado internamente. Dado o tamanho dos clusters Yahoo, que é uma contribuição significativa, especialmente se você não for um desenvolvedor Hadoop que segue os JIRAs o tempo todo. Cloudera apoia a sua distribuição comercialmente, bem como fornecendo algum apoio da comunidade através das listas de discussão do Hadoop e, por questões específicas-distro, em sua página GetSatisfaction.

Ambos são bastante diferente do vanilla Apache distro desde que consertá-la entre versões (a versão Cloudera de 20 tem mais de 60 manchas!).

Outras dicas

Yahoo descontinuou a sua própria distribuição e focando Apache Hadoop.

http://developer.yahoo.com/blogs/hadoop/posts/2011/01/announcement-yahoo-focusing-on-apache-hadoop-discontinuing-the-yahoo-distribution-of -hadoop /

http: / /www.cloudera.com/blog/2011/02/some-news-related-to-the-apache-hadoop-project/

Recentemente, Hortonworks (www.hortonworks.com) foi girado para fora da Yahoo. E agora Hortonworks também seria dar apoio ao contrário de Yahoo.

http://www.hortonworks.com/about-us/our-manifesto /

Cloudera é ao longo das mesmas linhas que Hortonworks

http://www.cloudera.com/products-services/

A principal diferença é Hortonworks quer fazer o Apache distribuições estável, fácil de instalar e outros. Enquanto, Cloudera tem a sua própria CDH distribuição * baseado no Apache Hadoop.

Existem diferentes razões para a escolha de uma distribuição Hadoop, como Cloudera, Hortonworks ou MapR vez de Apache Hadoop. Duas grandes vantagens são o suporte ferramentas e suporte comercial. Você também tem um monte de problemas "recolha e integração de" todos Hadoop quadros como o porco, Hive, etc. em versões corretas e compatíveis.

Dê uma olhada no meu artigo na InfoQ. Ele explica as diferenças entre Apache Hadoop, distribuições Hadoop e suites de dados grande, e quando usar cada um:

http://www.infoq.com/articles/BigDataPlatform

Com os melhores cumprimentos,

Kai Wahner (@KaiWaehner, www.kai-waehner.de/blog)

SquareCog está certo em quase todos os pontos, exceto: O Yahoo! distribuição é o que é executado em todos os clusters de produção no Yahoo !, não um subconjunto deles. Este é mais de 25.000 máquinas no total. O Yahoo! distribuição teve o teste extensivo, extremidade-a-extremidade necessário para assegurar um funcionamento fiável e consistente. A outra distribuição é mais liberal sobre aplicação de patches e assim podem ter mais recursos, mas não foi testado como extensivamente.

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top