Hadoop的输入文件

https://stackoverflow.com/questions/1223734

11-07-2019
|

题

是否有在输入文件夹具有发言权的n个文件用1行中的每个和运行的hadoop当具有在输入文件夹1名的文件与n行？之间的差

如果有n个文件，做了“InputFormat”刚看到这一切，为1个连续文件？

解决方案

有一个很大的区别。它常常被称为“小文件的问题”，并具有与Hadoop的预计巨头输入分割成更小的任务，但不收取小投入大任务的事实有关。

看看从Cloudera的这篇博客文章： http://www.cloudera.com/blog / 2009/02/02 /的小文件-问题/

如果你能避免产生大量的文件，这样做。可能的情况下串联。大裂开的文件是Hadoop的要好得多。

予一次跑Netflix的数据集猪。用了很长时间来处理短短演出。然后我串接输入文件（我想这是每一个电影文件，或每用户文件）到一个单一的文件 - 有我的结果分钟

。

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow