Frage

Gibt es einen Unterschied zwischen mit etwa n-Dateien mit 1 Zeile jeweils im Eingangsordner und mit 1 Datei mit n Zeilen im Eingabeordner, wenn hadoop ausgeführt wird?

Wenn es n Dateien, funktioniert das „Inputformat“ sieht einfach alles als 1 kontinuierliche Datei?

War es hilfreich?

Lösung

Es gibt einen großen Unterschied. Es wird häufig als „das kleinen Dateien Problem“ bezeichnet, und hat mit der Tatsache zu tun, dass Hadoop Riesen Eingänge in kleinere Aufgaben aufgeteilt erwartet, aber nicht kleine Eingänge in größere Aufgaben zu sammeln.

Werfen Sie einen Blick auf diesen Blog-Post von Cloudera: http://www.cloudera.com/blog / 2009/02/02 / die-kleine-files-Problem /

Wenn Sie vermeiden können viele Dateien zu erstellen, tun Sie dies. Verketten, wenn möglich. Große spaltbare Dateien sind viel besser für Hadoop.

Ich lief einmal Schwein auf dem Netflix-Datensatz. Es dauerte Stunden nur ein paar Gigs zu verarbeiten. Ich verketteten dann die Eingabedateien (ich denke, es ist eine Datei pro Film war, oder eine Datei pro Benutzer) in eine einzige Datei - hatte mein Ergebnis in Minuten

.
Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top