Pergunta

Nós vamos comprar um novo hardware para usar apenas para um cluster Hadoop e estamos presos sobre o que devemos comprar. Dizer que temos um orçamento de US $ 5k devemos comprar duas máquinas super agradável em US $ 2500 / cada, quatro em cerca de US $ 1200 / cada ou oito em torno de US $ 600 cada um? Vai Hadoop trabalho melhor com máquinas mais lentas ou menor número de máquinas muito mais rápido? Ou, como como a maioria das coisas "depende"? : -)

Foi útil?

Solução

Você é geralmente melhor com Hadoop recebendo algumas máquinas extras que são menos robusto. Você quase nunca vê DataNodes com mais de 16 GB de RAM e duas CPUs quad-core, e muitas vezes eles são menores do que isso.

Você sempre tem que executar um como o namenode (master), e, geralmente, você também não executar um DataNode (trabalhador / escravo) na mesma caixa, embora você poderia desde seu cluster é pequeno. Supondo que você não, porém, recebendo 2 máquinas vai deixá-lo apenas 1 nó trabalhador, o que frustra um pouco o efeito. (Não inteiramente, porque você ainda pode executar 4-8 postos de trabalho em paralelo no escravo, mas ainda.)

Ao mesmo tempo, você não quer ter um cluster de 1000 486s. Se o seu orçamento é de R $ 5k, gostaria de encontrar um equilíbrio e fazer 4 $ 1200 máquinas. Aqueles irá fornecer uma linha de base decente em termos de desempenho individual, você terá 3 DataNodes para distribuir trabalho para, e você terá espaço para crescer seu cluster se você precisar.

Coisas para manter em mente: você vai querer correr mapa múltipla ou reduzir tarefas por DataNode, e isso significa que várias JVMs rodando simultaneamente. Gostaria de tentar obter pelo menos 4 GB e, preferencialmente, 8 GB de RAM. CPU é menos importante do que a maioria dos empregos MR são IO bound. Você poderia provavelmente ter uma máquina como esta para o seu preço-alvo $ 1200, de modo que o meu voto.

Outras dicas

Em poucas palavras, você quer chegar no máximo ao número de núcleos de processadores e discos. Você pode sacrificar a confiabilidade e qualidade, mas não recebem o hardware mais barato lá fora, como você vai ter muitos problemas de confiabilidade.

Nós fomos com Dell 2xCPU servidores 4-core da Dell, de modo 8 núcleos por caixa. 16GB de memória por caixa, que é de 2 GB por núcleo, um pouco baixo quanto você precisa de memória, tanto para as suas tarefas e para o buffer de disco. discos rígidos 5x500GB, e eu gostaria que tivéssemos ido para terabyte ou mais unidades em seu lugar.

Para movimentações, minha opinião é a de comprar mais barato, lento, não confiáveis ??discos de alta capacidade em oposição a mais caros, mais rápidos, menores unidades e confiáveis. Se você está tendo problemas com débito do disco, mais memória vai ajudar com buffering.

Esta é provavelmente uma configuração mais robusta do que você está olhando, mas estourar o limite de núcleos e unidades versus comprar mais caixas é geralmente uma boa escolha -. Custos de energia menos, mais fácil de administrar, e mais rápido para algumas operações

Mais unidades de meios de disco mais simultânea rendimento por núcleo, assim que ter tantas unidades como núcleos é uma coisa boa. O benchmarking parece indicar que as configurações RAID são mais lentos do que a configuração JBOD (apenas montagem das unidades e ter carga propagação Hadoop através deles) e JBOD também é mais confiável.

LAST! Certifique-se de obter memória ECC. Hadoop empurra terabytes de dados através da memória, e alguns usuários descobriram que as configurações de memória não-ECC pode, ocasionalmente, introduzir erros de um único bit em conjuntos de dados de terabytes,. Depurar esses erros é um pesadelo.

Eu recomendo ter um olhar para esta apresentação: http: // www. cloudera.com/hadoop-training-thinking-at-scale Aqui os vários e contras pro são descritos.

Eu acho que a resposta também depende de suas expectativas do crescer conjunto e tecnologia que você está usando a rede. Se você estiver ok com 1GB ethernet - em seguida, tipo de máquinas é menos significativa. Ao mesmo tempo - se você quiser 10Gbit ethernet -. Você deve optar por um menor número de máquinas melhores para reduzir o custo da rede

outra referência: http://hadoopilluminated.com/hadoop_book/Hardware_Software.html (Disclaimer: Eu sou um co-autor deste livro hadoop livre)

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top