원사의 동시 MapReduce 작업 수 제어 및 모니터링

https://stackoverflow.com//questions/22069904

23-12-2019
|

문제

HADOOP 2.2 클러스터가 적은 수의 강력한 기계에 배포되었습니다.나는 원사를 프레임 워크로 사용하는 제약 조건을 가지고 있습니다.

실제 맵의 수를 제어하고 병렬로 실행될 작업을 줄이려면 어떻게합니까?각 기계에는 많은 CPU 코어 (12-32)와 충분한 RAM이 있습니다.나는 그들을 최대한 활용하고 싶다.
어떻게 내 설정이 실제로 기계의 더 나은 활용도로 이어지는 것을 어떻게 모니터링 할 수 있습니까?주어진 직업 중에 몇 개의 코어 (스레드, 프로세스)가 사용되었는지 확인할 수 있습니까?

이 기계가 녹는 것을 돕기 위해 미리 감사드립니다.)

해결책

1.

MR1에서 MAPRED.TASKTRACKER.MAP.TASKS.maxtRacker.map.tasks.maxtRacker.tasktracker.Reduce.tasks.maximum 등록 정보 각 TaskTracker가 가지고있는 각 맵 및 축소 슬롯 수를 지시했습니다.

이들 특성은 더 이상 실에 존재하지 않습니다. 대신, 실은 yarn.nodemanager.resource.memory-mb 및 agn.nodemanager.resource.resource.resource.cpu-vcores를 사용하여 각 노드의 메모리 및 CPU 양을 제어하고 두 맵에서 사용할 수 있으며

본질적으로 :

원사에는 TaskTrackers가 없지만 단지 일반 NodeManagers입니다. 따라서 더 이상지도 슬롯이 없으며 슬롯 분리를 줄입니다. 모든 것이 사용 / 요구되는 메모리 양에 따라 다릅니다

웹 UI를 사용하면 많은 모니터링 / 관리 종류의 정보를 얻을 수 있습니다.

namenode - http : // : 50070 /
자원 관리자 - http : // : 8088 /

Apache Ambari는 이것을 의미합니다. http://ambari.apache.org/

와 많은 방법으로 Hadoop / 얀 클러스터와 인터페이싱을위한 색조 "Nofollow"> http://gethue.com/

다른 팁

좋은Hortonworks

가이드

작업 내역에서 작업을 분석 할 수 있습니다 서버.그것은 일반적으로 포트 19888에서 찾을 수 있습니다. ambari 및 ganglia 도 클러스터 이용 측정에 매우 좋습니다.

나는 같은 문제를 일으켰습니다. 매퍼의 수를 늘리려면 입력 분할의 크기를 줄이는 것이 좋습니다 (각 입력 분할은 매퍼와 컨테이너에 의해 처리됩니다).나는 그것을 어떻게하는지 모르겠다,

실제로 Hadoop 2.2 / your가 다음 설정 중 어느 것도 고려하지 않습니다

<property>
    <name>mapreduce.input.fileinputformat.split.minsize</name>
    <value>1</value>
</property>
<property>
    <name>mapreduce.input.fileinputformat.split.maxsize</name>
    <value>16777216</value>
</property>

<property>
    <name>mapred.min.split.size</name>
    <value>1</value>
</property>
<property>
    <name>mapred.max.split.size</name>
    <value>16777216</value>
</property>

Best

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow