Pregunta

¿Hay alguna diferencia entre decir n archivos con 1 línea cada uno en la carpeta de entrada y tener 1 archivo con n líneas en la carpeta de entrada cuando se ejecuta hadoop?

Si hay n archivos, ¿el " InputFormat " solo verlo todo como 1 archivo continuo?

¿Fue útil?

Solución

Hay una gran diferencia. Con frecuencia se conoce como "el problema de los archivos pequeños". , y tiene que ver con el hecho de que Hadoop espera dividir entradas gigantes en tareas más pequeñas, pero no recolectar entradas pequeñas en tareas más grandes.

Echa un vistazo a esta publicación de blog de Cloudera: http://www.cloudera.com/blog / 2009/02/02 / the-small-files-problem /

Si puede evitar crear muchos archivos, hágalo. Concatenar cuando sea posible. Los archivos divisibles grandes son MUCHO mejores para Hadoop.

Una vez ejecuté Pig en el conjunto de datos de netflix. Tomó horas procesar solo unos pocos conciertos. Luego concatenaba los archivos de entrada (creo que era un archivo por película o un archivo por usuario) en un solo archivo; obtuve mi resultado en minutos.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top