Pode Hadoop ser restrito a ciclos de CPU de reposição?

https://stackoverflow.com/questions/1607361

hadoop

05-07-2019
|

Pergunta

É possível executar Hadoop para que ele só usa ciclos de CPU de reposição? Ou seja, seria viável a instalação Hadoop sobre os povos trabalhar máquinas para que o número de trituração pode ser feito quando eles não estão usando seus PCs, e que não iria experimentar uma fuga de desempenho óbvia (whurring fãs de lado!).

Talvez seja apenas ser um caso de ajuste do JVM para executar em uma prioridade baixa e não usar 'demasiado' rede (supondo que tal coisa é possível em uma máquina Windows)?

Se não, alguém sabe de quaisquer equivalentes Java para coisas como BOINC ?

Edit: Found a lista de Ciclo de Carne Infrastructure aqui . Embora minha pergunta sobre Hadoop ainda está de pé.

Solução

Isso é muito fora do uso pretendido para o Hadoop. Hadoop espera que todos os seus nós para estar totalmente disponível e em rede para melhor rendimento - não é algo que você começa com estações de trabalho. Além disso, nem sequer realmente executado no Windows (você pode usá-lo com cygwin, mas eu não conheço ninguém usando isso para "produção" - exceto como máquinas cliente emissão de postos de trabalho).

Hadoop faz coisas como pedaços armazenar dados em alguns dos nós, e tentar agendar todos os cálculos em que os dados sobre esses nós; em um ambiente de compartilhamento de trabalho, o que significa uma tarefa que precisa esses dados vão querer correr nessas três estações de trabalho - independentemente do que seus usuários estão fazendo no momento. Em contraste, os projetos de "ciclo de eliminação" manter todos os dados em outro lugar, e enviá-lo e uma tarefa para qualquer nó que está disponível em um determinado momento; o que lhes permite ser mais agradável para as máquinas, mas incorre em custos de transferência de dados óbvios.

Outras dicas

Talvez Terracotta é algo mais acima de sua aléia?

Terracotta Product Link

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow