是否有在输入文件夹具有发言权的n个文件用1行中的每个和运行的hadoop当具有在输入文件夹1名的文件与n行?之间的差

如果有n个文件,做了“InputFormat”刚看到这一切,为1个连续文件?

有帮助吗?

解决方案

有一个很大的区别。它常常被称为“小文件的问题”,并具有与Hadoop的预计巨头输入分割成更小的任务,但不收取小投入大任务的事实有关。

看看从Cloudera的这篇博客文章: http://www.cloudera.com/blog / 2009/02/02 /的小文件-问题/

如果你能避免产生大量的文件,这样做。可能的情况下串联。大裂开的文件是Hadoop的要好得多。

予一次跑Netflix的数据集猪。用了很长时间来处理短短演出。然后我串接输入文件(我想这是每一个电影文件,或每用户文件)到一个单一的文件 - 有我的结果分钟

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top