Domanda

È possibile eseguire Hadoop in modo che utilizzi solo cicli CPU di riserva? Cioè sarebbe possibile installare Hadoop su macchine da lavoro della gente in modo che lo scricchiolio dei numeri possa essere fatto quando non usano i loro PC, e non sperimenterebbero un evidente consumo di prestazioni (a parte i fan!)

Forse è solo un caso di impostare la JVM per funzionare a bassa priorità e non usare una rete "troppo" (supponendo che una cosa del genere sia possibile su un computer Windows)?

In caso contrario, qualcuno è a conoscenza di equivalenti Java a cose come BOINC ?

Modifica: ho trovato un elenco di Cycle Scavenging Infrastructure qui . Sebbene la mia domanda su Hadoop sia ancora valida.

È stato utile?

Soluzione

Questo è molto al di fuori dell'uso previsto per Hadoop. Hadoop si aspetta che tutti i suoi nodi siano completamente disponibili e collegati in rete per un throughput ottimale, non qualcosa che si ottiene con le workstation. Inoltre, non funziona nemmeno in Windows (puoi usarlo con cygwin, ma non conosco nessuno che lo usi per "produzione" - tranne che come macchine client che eseguono lavori).

Hadoop fa cose come archiviare blocchi di dati su alcuni dei nodi e provare a pianificare tutti i calcoli su quei dati su quei nodi; in un ambiente di condivisione del lavoro, ciò significa che un'attività che necessita di questi dati vorrà essere eseguita su quelle tre stazioni di lavoro, indipendentemente da ciò che i loro utenti stanno facendo al momento. Al contrario, "scavenging del ciclo" i progetti conservano tutti i dati altrove e li spediscono e un'attività a qualsiasi nodo disponibile in un determinato momento; questo consente loro di essere più gentili con le macchine, ma comporta ovvi costi di trasferimento dei dati.

Altri suggerimenti

Forse il cotto è qualcosa in più nel tuo vicolo?

Link al prodotto in terracotta

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top