Hadoop Eingabedateien

https://stackoverflow.com/questions/1223734

11-07-2019
|

Frage

Gibt es einen Unterschied zwischen mit etwa n-Dateien mit 1 Zeile jeweils im Eingangsordner und mit 1 Datei mit n Zeilen im Eingabeordner, wenn hadoop ausgeführt wird?

Wenn es n Dateien, funktioniert das „Inputformat“ sieht einfach alles als 1 kontinuierliche Datei?

Lösung

Es gibt einen großen Unterschied. Es wird häufig als „das kleinen Dateien Problem“ bezeichnet, und hat mit der Tatsache zu tun, dass Hadoop Riesen Eingänge in kleinere Aufgaben aufgeteilt erwartet, aber nicht kleine Eingänge in größere Aufgaben zu sammeln.

Werfen Sie einen Blick auf diesen Blog-Post von Cloudera: http://www.cloudera.com/blog / 2009/02/02 / die-kleine-files-Problem /

Wenn Sie vermeiden können viele Dateien zu erstellen, tun Sie dies. Verketten, wenn möglich. Große spaltbare Dateien sind viel besser für Hadoop.

Ich lief einmal Schwein auf dem Netflix-Datensatz. Es dauerte Stunden nur ein paar Gigs zu verarbeiten. Ich verketteten dann die Eingabedateien (ich denke, es ist eine Datei pro Film war, oder eine Datei pro Benutzer) in eine einzige Datei - hatte mein Ergebnis in Minuten

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow