Question

Existe-t-il une différence entre avoir n fichiers de 1 ligne chacun dans le dossier d'entrée et avoir 1 fichier de n lignes dans le dossier d'entrée lors de l'exécution de hadoop?

S'il y a n fichiers, l'option " InputFormat " il suffit de tout voir comme un fichier continu?

Était-ce utile?

La solution

Il y a une grande différence. Il est souvent appelé "problème des petits fichiers". , et tient au fait que Hadoop espère diviser des intrants géants en tâches plus petites, mais pas en collecter de petits pour de plus grandes tâches.

Jetez un coup d’œil à ce billet de blog de Cloudera: http://www.cloudera.com/blog / 2009/02/02 / the-small-files-problem /

Si vous pouvez éviter de créer beaucoup de fichiers, faites-le. Concaténer lorsque cela est possible. Les gros fichiers pouvant être séparés sont BEAUCOUP meilleurs pour Hadoop.

J'ai déjà exécuté Pig sur le jeu de données netflix. Cela a pris des heures pour traiter quelques concerts. J'ai ensuite concaténé les fichiers d'entrée (je pense qu'il s'agissait d'un fichier par film ou d'un fichier par utilisateur) en un seul fichier - le résultat obtenu était présenté en quelques minutes.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top