题
是否有在输入文件夹具有发言权的n个文件用1行中的每个和运行的hadoop当具有在输入文件夹1名的文件与n行?之间的差
如果有n个文件,做了“InputFormat”刚看到这一切,为1个连续文件?
解决方案
有一个很大的区别。它常常被称为“小文件的问题”,并具有与Hadoop的预计巨头输入分割成更小的任务,但不收取小投入大任务的事实有关。
看看从Cloudera的这篇博客文章: http://www.cloudera.com/blog / 2009/02/02 /的小文件-问题/
如果你能避免产生大量的文件,这样做。可能的情况下串联。大裂开的文件是Hadoop的要好得多。
予一次跑Netflix的数据集猪。用了很长时间来处理短短演出。然后我串接输入文件(我想这是每一个电影文件,或每用户文件)到一个单一的文件 - 有我的结果分钟
。不隶属于 StackOverflow