Вопрос

Есть ли разница между наличием, например, n файлов по 1 строке во входной папке и наличием 1 файла с n строками во входной папке при запуске hadoop?

Если существует n файлов, выполняет ли " InputFormat " просто увидеть все это как 1 непрерывный файл?

Это было полезно?

Решение

Есть большая разница. Это часто упоминается как «проблема маленьких файлов» и связано с тем, что Hadoop рассчитывает разделить гигантские входные данные на более мелкие задачи, но не собирать небольшие входные данные в более крупные задачи.

Посмотрите на это сообщение в блоге от Cloudera: http://www.cloudera.com/blog / 2009/02/02 / в-стрелковые файлы-проблема /

Если вы можете избежать создания большого количества файлов, сделайте это. Объединить, когда это возможно. Большие разделяемые файлы НАМНОГО лучше для Hadoop.

Однажды я запустил Pig в наборе данных netflix. Потребовались часы, чтобы обработать всего несколько концертов. Затем я объединил входные файлы (я думаю, что это был файл на фильм или файл на пользователя) в один файл - мой результат был за считанные минуты.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top