경 Hadoop?

https://stackoverflow.com/questions/17721

09-06-2019
|

문제

어떤 당신이 시도 하둡?사용될 수 없이 분산 파일 시스템으로가는,그것을 공유 아무것도 포함되어 있을 수 있습니다는 것인가?

나는 또한 관심이 어떤 성능 결과를...

해결책

예를 사용할 수 있습 Hadoop 에는 로컬 파일 시스템을 사용하여 파일을 Uri 를 대신 hdfs Uri 는 다양한 장소에서.나는 생각이 많은 예제와 함께 하둡니다.

이것은 아마도 당신만 원하는 방법을 배우 Hadoop 작동하고 기본적인 지도 줄이 패러다임을,그러나 당신이 필요합니다 여러 시스템과 분산 시스템을 얻을 실제 혜택의 확장성을 고유에서 건물입니다.

다른 팁

Hadoop MapReduce 실행할 수 있습 ontop 의 모든 숫자의 파일 시스템 또는 더욱 더 추상적인 데이터와 같은 원본 데이터베이스가 있습니다.사실 몇 가지의 내장에서 클래스 비 HDFS 파일 시스템 지원 등 S3 고 FTP.당신은 쉽게 자신의 빌드를 입력 뿐만 아니라 형식을 확장하여 기본 InputFormat 클래스.

사용 HDFS 어떤 이점을 제공합니다,그러나.가장 강력한 장점은 MapReduce 작업 스케줄러가 실행하려고지도 및 감소에서 실제 컴퓨터는 저장하는 레코드의 필요에 처리됩니다.이것은 성능을 향상으로 데이터를 로드할 수 있습니다 똑바로 로컬 디스크에서 대신 네트워크를 통해 전송되는지에 따라 연결 될 수 있습 크기 순서 느립니다.

조으로 말한다면,당신은 수 있습니다 실제로 사용하지 않고 Hadoop HDFS.그러나,처리량에 따라서 클러스터의 능력을 할 계산 근처에는 데이터가 저장됩니다.사용 HDFS 는 2 개의 주요 혜택이 이럴 1)계산이 확산에 균등하게 클러스터(의 양을 줄이는 노드간 통신)및 제 2)클러스터 전체가 더 강하게 실패로 인한 데이터는 사용 불가.

는 경우에 데이터가 분할된 이미 또는 소소 분할 가능한,보고 할 수 있습으로 공급하는 자신의 파티셔닝 기능에 대한 귀하의 지도 감소 작업입니다.

최고의 방법으로 감싸 주위에 당신의 머리는 하둡은 그것을 다운로드를 탐험을 시작하는 예입니다.사용 리눅스/VM 에 설치 될 것보다 훨씬 쉽 Mac 이나 Windows.면 당신은 편안한 느낌으로 샘플의 개념,다음 시작하는 방법을 참조 문제 공간에 매핑할 수도 있습으로 framework.

몇 가지원 유용하게 활용할 수 있는 더 많은 정보에 Hadoop:

Hadoop 정상회 동영상 및 프레젠테이션

Hadoop:최종적인 가이드:러프 컷 버전 -이것은 하나의 몇 가지만(?) 책을 사용할 수 있도록 하둡니다.나는 그것을 말할 가치가있는 가격의 전자 다운로드 옵션이(책~40%완전한).

Hadoop: The Definitive Guide: Rough Cuts Version

Parallel/Distributed computing=속도 << Hadoop 이 정말 정말 쉽고 저렴하기 때문 바로 사용할 수 있습 무리의 필수품 기계!!!

수 년 동안 디스크 저장 용량을 증가한 대규모 그러나 속도에서 읽은 데이터를 보관하지 않습니다.당신은 더 많은 데이터 중 하나에서 디스크,느린려고 합니다.

Hadoop 리의 변형 분할 정복에 접근하는 문제 해결.당신이 본질적으로 파괴 문제 작은 덩어리 및 할당 덩어리하는 여러 가지 서로 다른 컴퓨터 처리를 수행하는 병렬로 사 보다는 과부나 기계입니다.각 컴퓨터 프로세스는 자신의 하위 집합의 데이터 및 결과 결합니다.Hadoop 에 단일 노드를 제공하지 않은 당신 속도는 문제입니다.

의 혜택을 볼 hadoop,당신은 당신이 있어야 클러스터 이상 4-8 품 기계(의 크기에 따라 데이터)에서 같은 선반에 얹습니다.

당신이 더 이상 필요하지 않는 슈퍼 천재 병렬 시스템 엔지니어의 활용을 분산된 컴퓨팅에 있습니다.그냥 알아 hadoop 와 하이브 및 당신의 갈 수 있습니다.

yes,hadoop 수 있는 아주 잘 사용하지 않고 HDFS.HDFS 은 기본 스토리지 Hadoop.대체할 수 있습 HDFS 와 다른 저장 같은 데이터베이스가 있습니다.HadoopDB 은 확대해 hadoop 사용하는 데이터베이스를 대신 HDFS 으로 데이터 소스입니다.Google 그것은,당신은 그것을 얻을 것이 쉽다.

당신이 얻은 당신 시작하여 다운로드 CDH4&습니다.당신은 쉽게 설치할 수 있습니다 로컬 가상 기계하고 실행에서"의사 분산 모드"는 밀접하게 모방이 어떻게 그것을 실행하는 것에서 클러스터입니다.

예를 사용할 수 있습 로컬 파일 시스템을 사용하여 파일://를 지정하는 동안에 입력 파일 등을 이 작품 또한 작은 데이터를 설정합니다.그러나 실제적인 전력의 hadoop 기반에 데이터를 공유 메커니즘이 있습니다.그러나 하둡 처리에 사용되는 엄청난 양의 데이터입니다.는 양의 데이터를 처리할 수 없습니다 하나는 로컬 컴퓨터 또는 경우에도 그것은 걸릴 것입니다 많은 시간을 마무리 작업입니다.부터의 입력 파일 공유된 위치에(HDFS)여러 매퍼에 읽을 수 있습을 동시에 시간을 줄일 수 있습니다간단히 말해서 사용할 수 있습니다 그것은 현지 파일 시스템만 비즈니스 요구 사항을 충족 하는 당신은 그것을 사용해야와 공유된 파일 시스템입니다.

훌륭한 이론적인 대답이다.

을 변경 hadoop 파일 시스템 지역,에서 변경할 수 있습니다"core-site.xml"configuration 파일 아래와 같이 hadoop 버전 2.x.x.

 <property>
    <name>fs.defaultFS</name>
    <value>file:///</value>
  </property>

hadoop 버전 1.x.x.

 <property>
    <name>fs.default.name</name>
    <value>file:///</value>
  </property>

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow