Wie lese ich die Hadoop -Sequentil -Datei als Eingabe für den Hadoop -Job?

https://stackoverflow.com/questions/8818037

27-10-2019
|

Frage

Ich habe eine sequentielle Datei, die das Schlüsselwertpaar vom Typ hat "org.apache.hadoop.typedBytes.typedByteswritable" Ich muss diese Datei als Eingabe für den Hadoop -Job bereitstellen und sie nur in der Karte verarbeiten. Ich meine, ich muss nichts tun, was reduziert werden muss.

1) Wie werde ich das FileInputFormat als sequentielle Datei angeben?

2) Was wird die Signatur der Kartenfunktion sein?

3) Wie bekomme ich Ausgabe von MAP anstatt zu reduzieren?

Lösung

1) Wie werde ich das FileInputFormat als sequentielle Datei angeben?

Setzen Sie die SequenceFileasBinaryInputformat als Eingabeformat. Hier ist der Code Für die SequenzFileasBinaryInputformat -Klasse.

Hier ist der Code

JobConf conf = new JobConf(getConf(), getClass());
conf.setInputFormat(SequenceFileAsBinaryInputFormat.class);

2) Was wird die Signatur der Kartenfunktion sein?

Die Karte würde mit einem Byteswritable als Schlüssel- und Werttypen aufgerufen.

3) Wie bekomme ich Ausgabe von MAP anstatt zu reduzieren?

Setzen Sie die mapred.reduce.tasks Eigenschaft bis 0. Die Ausgabe der Karte ist die endgültige Ausgabe des Jobs.

Schauen Sie sich auch das an die SequenceFileTextInputformat. Die Karte würde mit Text als Schlüssel- und Werttypen aufgerufen.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow