문제

나는 알고 싶은 좋은 강력한 MapReduce framework,야에서 활용 Scala.

도움이 되었습니까?

해결책

Hadoop에 대한 답변을 추가하기 위해 : Hadoop와 함께 작업하는 것이 더 맛있는 스칼라 포장지가 두 개 이상 있습니다.

스칼라 맵 감소 (SMR) : http://scala-blogs.org/2008/09/scalable-language-and-scalable.html

Shadoop : http://jonhnny-weslley.blogspot.com/2008/05/shadoop.html

upd 5 10 월. 11

도 있습니다 스쿠비 프레임 워크, 그것은 멋진 표현력을 가지고 있습니다.

다른 팁

http://hadoop.apache.org/ 언어는 불가지론입니다.

개인적으로, 나는 Spark의 열렬한 팬이되었습니다

http://spark-project.org/

메모리 내 클러스터 컴퓨팅을 수행 할 수있어 디스크 집약적 인 MapReduce 작업에서 경험할 오버 헤드를 크게 줄입니다.

당신은 관심이있을 수 있습니다 ScouchDB, 사용하기위한 스칼라 인터페이스 couchdb.

또 다른 아이디어는 사용하는 것입니다 그리드 게인. Scaladudes Scala와 함께 Gridgain을 사용하는 예가 있습니다. 그리고 여기 또 다른 예입니다.

얼마 전, 나는이 문제를 정확히 달려 가서 Scala에서 Hadoop을 쉽게 사용할 수 있도록 약간의 인프라를 작성하게되었습니다. 나는 그것을 잠시 동안 스스로 사용했지만 마침내 웹에 올려 놓았다. 명명되었습니다 (원래) Scalahadoop.

에 대한 scala API 에서 최고 hadoop 의 체크아웃 Scoobi, 그것은 여전히 무거운 개발지만 많은 약속을 보여줍니다.또한 일부를 구현하기 위해 최선을 다하고 분산 컬렉션에서 최고 hadoop 밀라노 인큐베이터, 지만,그의 노력을 사용할 수 없습니다 아직입니다.

또한 새로운 래퍼 스칼라에 대한 연계 트위터에서 불 .후에 매우 간단히 이상의 설명서를 끓는 것 같다 는 동안 그것은 다과의 통합 연계 부드러운전 해결되지 않을 내가 참으로 주요 문제에 연계:형식 안전성입니다.에서 모든 작업을 연계 운영하고 계단식의 튜플을(기본적으로 목록 필드의 값이 있거나 없는 별도의 스키마),즉 입력 오류가,I.e.에 가입하는 키 문자열 및 핵심으로 긴 리드 을 실행시 오류입니다.

더 많은 Jshen의 요점 :

Hadoop 스트리밍은 단순히 소켓을 사용합니다. Unix 스트림을 사용하면 코드 (모든 언어)는 STDIN 및 출력 탭에서 구분 된 스트림에서 읽을 수 있어야합니다. Mapper를 구현하고 필요한 경우 REDER (및 관련된 경우 콤비너로 구성)를 구현하십시오.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top