Domanda

Sfondo

Il mio datore di lavoro sta progressivamente spostando la nostra logica di ETL e back-end trattamento intensivo di risorse da MySQL a Hadoop (DFS e alveare). Al momento tutto è ancora un po 'piccolo e maneggevole (20 TB oltre 10 nodi), ma abbiamo intenzione di aumentare progressivamente la dimensione dei cluster.

Ora che Hadoop è stato spostato in uso in produzione, il suo divenire un problema più grande di programmazione in batch e la condivisione del cluster tra le query ad-hoc utente alveare, ogni ora M / processi R, e credo che alla fine un po 'di utilizzo di HBase. Il timore è che una query naif sarà effettuata da un utente che potrebbe correre per un tempo irragionevole (diciamo 4 ore) intasare la coda compito e producendo potenziali instabilità carico infrastrutture.

Domanda

Un'altra sezione della mia azienda è già stata bruciata da immaturità di Flume, quindi la mia domanda è, come stabile sono i due scheduler noti (capacità e Fiera) e oltre l'utilizzo nelle loro aziende sponsor (Yahoo e Facebook) sono hanno usato altrove?

Modifica: informazioni di sfondo

http://www.cloudera.com/ blog / 2008/11 / job-scheduling-in-Hadoop /

http://hadoop.apache.org/mapreduce/docs /r0.21.0/fair_scheduler.html

http://hadoop.apache.org/mapreduce/docs /r0.21.0/capacity_scheduler.html

È stato utile?

Soluzione

Spediamo CDH con la Fair Share Scheduler per impostazione predefinita. E 'abbastanza stabile.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top