문제

누군가가 이용 가능한 다양한 Hadoop 분포의 다양한 차이점을 설명 할 수 있습니까?

Apache Hadoop 배포판을 기준선으로 사용합니다.

a 좋은 이유 표준 Apache Hadoop 배포판을 통해 이러한 배포판 중 하나를 사용하는 것입니까?

도움이 되었습니까?

해결책

면책 조항 : 나는 이번 여름 클라우데라에서 인턴을했다 (그러나 나의 가장 친한 친구 중 일부는 야후에있다! :-))

Yahoo 분포는 클러스터의 일부 하위 집합에서 실행되는 Hadoop 20의 버전입니다. 안정성, 버그 수정 등을위한 패치 세트가 포함됩니다. 소스 릴리스입니다. RPM 또는 데비안 패키지 등과 같은 관리자 친화적 인 기능이 없습니다.

Cloudera 분포는 RPMS 및 DEBS (소스도 사용할 수 있음)로 패키지입니다. 즉, 표준 방법 등을 통해 업데이트를 얻을 수 있습니다. 안정성 및 버그 수정 패치도 포함됩니다. 그것은 끊임없이 유지됩니다 (Yahoo는 그렇지 않다고 말할 필요가 없습니다. 나는 단지 Github에 가서 마지막으로 업데이트했을 때 확인할 수 있다고 생각합니다). 또한 Pig and Hive를 포장합니다.

Cloudera의 Hadoop 20 분포는 베타이고 18은 안정적으로 간주됩니다 (자세한 내용은 Cloudera 블로그). 18 버전에는 Hive 및 Pig 용 패키지도 포함되어 있습니다. 20 명은 직접 구축해야합니다 (패치가 존재하더라도 아직 20을 지원하는 돼지 나 하이브 공식 릴리스는 없습니다). Cloudera와 Yahoo 버전 20 사이에는 상당한 중첩이있을 수 있습니다. 둘 다 매니페스트를 제공하므로 확인할 수 있습니다. Cloudera의 배포판에 대한 최신 문서는 있습니다 http://archive.cloudera.com

야후는 그들의 분포를 지원하지 않습니다. 그들은 커뮤니티에 대한 서비스로 패치 버전을 제공하므로 관심있는 사람들은 Yahoo가 내부적으로 운영하는 것을 구축 할 수 있습니다. Yahoo 클러스터의 크기를 감안할 때, 특히 Jiras를 따르는 Hadoop 개발자가 아니라면 상당한 기여입니다. Cloudera는 상업적으로 배포를 지원할뿐만 아니라 Hadoop 메일 링리스트를 통해 일부 커뮤니티 지원을 제공하고 배포판 특정 문제의 경우 GetSatiscation 페이지에서 배포를 제공합니다.

둘 다 바닐라 아파치 배포판이 릴리스 사이에 패치하기 때문에 바닐라 아파치 배포판과는 상당히 다릅니다 (Cloudera 버전에는 60 개 이상의 패치가 있습니다!).

다른 팁

Yahoo는 자체 배포와 Apache Hadoop에 중점을 두었습니다.

http://developer.yahoo.com/blogs/hadoop/posts/2011/01/announction-yahoo-focusing-on-apache-hadoop-discontinuing--yahoo-distribution-of-hadoop/

http://www.cloudera.com/blog/2011/02/some-news-related-to-the-apache--project/

최근에 Hortonworks (www.hortonworks.com)는 Yahoo에서 회전했습니다. 그리고 이제 Hortonworks는 Yahoo와 달리 지원을 제공 할 것입니다.

http://www.hortonworks.com/about-us/our-manifesto/

Cloudera는 Hortonworks와 같은 라인을 따라 있습니다

http://www.cloudera.com/products-services/

주요 차이점은 Hortonworks가 Apache 배포판을 안정적이고 설치하기 쉽고 다른 사람들을 만들고 싶어한다는 것입니다. Cloudera는 Apache Hadoop을 기반으로 자체 배포 CDH*를 가지고 있습니다.

Apache Hadoop 대신 Cloudera, Hortonworks 또는 MAPR과 같은 Hadoop 분포를 선택하는 이유는 여러 가지가 있습니다. 두 가지 큰 장점은 도구 지원과 상업적 지원입니다. 또한 돼지, 하이브 등과 같은 모든 Hadoop 프레임 워크 등을 오른쪽 및 호환 버전으로 "수집 및 통합"하는 데 많은 문제가 있습니다.

InfoQ에서 내 기사를 살펴보십시오. Apache Hadoop, Hadoop 분포 및 빅 데이터 스위트의 차이점과 언제 사용 해야하는지 설명합니다.

http://www.infoq.com/articles/bigdataplatform

친애하는,

Kai Wähner (@kaiwaehner, www.kai-waehner.de/blog)

Squarecog는 다음을 제외한 거의 모든 지점에 맞습니다 : Yahoo! 분포는 Yahoo!의 모든 생산 클러스터에서 실행되는 것입니다. 이것은 총 25,000 대 이상의 기계입니다. 야후! 야후! 야후! 야후! 야후! 야후! 야후! 야후! 유통은 신뢰할 수 있고 일관된 작동을 보장하기 위해 광범위하고 엔드 투 엔드 테스트를 수행했습니다. 다른 분포는 패치를 적용하는 것에 대해 더 자유롭기 때문에 더 많은 기능이있을 수 있지만 광범위하게 테스트되지는 않았습니다.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top