Hadoop 입력 파일

문제

입력 폴더에 각각 1 줄이있는 N 파일을 말하는 것과 Hadoop을 실행할 때 입력 폴더에 n 라인이있는 1 개의 파일이있는 것 사이에 차이가 있습니까?

N 파일이있는 경우 "inputformat"은 모두 1 연속 파일로 보입니까?

해결책

큰 차이가 있습니다. 그것은 종종 "작은 파일 문제"라고하며, Hadoop은 거대한 입력을 작은 작업으로 나누기를 기대하지만 작은 입력을 더 큰 작업으로 수집하지 않는다는 사실과 관련이 있습니다.

많은 파일 생성을 피할 수 있다면 그렇게하십시오. 가능하면 연결하십시오. 큰 분할 가능 파일은 Hadoop에게 훨씬 좋습니다.

나는 한 번 Netflix 데이터 세트에서 돼지를 달렸다. 몇 공연 만 처리하는 데 몇 시간이 걸렸습니다. 그런 다음 입력 파일 (영화 당 파일 또는 사용자 당 파일이라고 생각)을 단일 파일로 연결했습니다. 결과는 몇 분 안에 내 결과를 얻었습니다.

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow