Вопрос
Есть ли разница между наличием, например, n файлов по 1 строке во входной папке и наличием 1 файла с n строками во входной папке при запуске hadoop?
Если существует n файлов, выполняет ли " InputFormat " просто увидеть все это как 1 непрерывный файл?
Решение
Есть большая разница. Это часто упоминается как «проблема маленьких файлов» и связано с тем, что Hadoop рассчитывает разделить гигантские входные данные на более мелкие задачи, но не собирать небольшие входные данные в более крупные задачи. Р>
Посмотрите на это сообщение в блоге от Cloudera: http://www.cloudera.com/blog / 2009/02/02 / в-стрелковые файлы-проблема /
Если вы можете избежать создания большого количества файлов, сделайте это. Объединить, когда это возможно. Большие разделяемые файлы НАМНОГО лучше для Hadoop.
Однажды я запустил Pig в наборе данных netflix. Потребовались часы, чтобы обработать всего несколько концертов. Затем я объединил входные файлы (я думаю, что это был файл на фильм или файл на пользователя) в один файл - мой результат был за считанные минуты.