質問

hadoopの実行中に、入力フォルダーにそれぞれ1行のn個のファイルがあると、入力フォルダーにn行の1個のファイルがあるとの違いはありますか?

ファイルがn個ある場合、" InputFormat"すべてを1つの連続したファイルとして見るだけですか?

役に立ちましたか?

解決

大きな違いがあります。 「小さなファイルの問題」と呼ばれることがよくあります。 、Hadoopは巨大な入力を小さなタスクに分割することを期待しているが、小さな入力を大きなタスクに収集することはないという事実に関係しています。

Clouderaのこのブログ投稿をご覧ください。 http://www.cloudera.com/blog / 2009/02/02 / the-small-files-problem /

大量のファイルの作成を回避できる場合は、作成してください。可能な場合は連結します。大きな分割可能ファイルは、Hadoopにとって非常に優れています。

NetflixデータセットでPigを実行したことがあります。ほんの数ギグを処理するのに数時間かかりました。次に、入力ファイル(映画ごとのファイル、またはユーザーごとのファイル)を1つのファイルに連結しました-数分で結果が得られました。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top