Arquivos de entrada do Hadoop

https://stackoverflow.com/questions/1223734

11-07-2019
|

Pergunta

Existe uma diferença entre ter digamos n arquivos com 1 linha de cada um na pasta de entrada e com 1 arquivo com n linhas na pasta de entrada durante a execução do Hadoop?

Se houver n arquivos, faz o "InputFormat" apenas ver tudo como um arquivo contínuo?

Solução

Há uma grande diferença. É frequentemente referido como "o problema pequenos arquivos", e tem a ver com o facto de Hadoop espera dividir entradas gigantes em tarefas menores, mas não recolher pequenas entradas em tarefas maiores.

Dê uma olhada neste post do blog de Cloudera: http://www.cloudera.com/blog / 2009/02/02 / the-small-arquivos de problemas /

Se você pode evitar a criação de lotes de arquivos, faça isso. Concatenar quando possível. Grandes arquivos divisíveis são muito melhores para Hadoop.

Uma vez eu corri Porco no conjunto de dados Netflix. Demorou horas para processar apenas alguns shows. Eu, então, concatenado os arquivos de entrada (eu acho que foi um arquivo por filme, ou um arquivo por usuário) em um único arquivo -. Tinha o meu resultado em minutos

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow