ハドゥープ:HDFS からのマップ/リダクション
-
16-09-2019 - |
質問
私は間違っているかもしれませんが、Apache Hadoop で私が見たすべて (?) の例は、ローカル ファイル システムに保存されているファイルを入力として受け取ります (例:org.apache.hadoop.examples.Grep)
Hadoop ファイル システム (HDFS) にデータをロードおよび保存する方法はありますか?たとえば、次を使用して「stored.xls」という名前のタブ区切りファイルをHDFSに配置します。 hadoop-0.19.1/bin/hadoop dfs -put ~/local.xls stored.xls
. 。JobConf を読み取るように設定するにはどうすればよいですか?
ありがとう 。
解決
JobConf conf = new JobConf(getConf(), ...); ... FileInputFormat.setInputPaths(conf, new Path("stored.xls")) ... JobClient.runJob(conf); ...
setInputPathsはそれを行います。
他のヒント
ピエールさん、Hadoop のデフォルト構成は分散モードではなくローカル モードで実行されます。おそらく、hadoop-site.xml 内の一部の構成を変更するだけで済みます。デフォルトのファイルシステムは hdfs://youraddress:yourport であるべきところ、依然として localhost のようです。fs.default.name の設定を確認し、セットアップのヘルプも参照してください。 マイケル・ノルのブログ 詳細については。
FileInputFormat.setInputPaths(confに、新しいパス( "HDFS://ホスト名:ポート/ユーザー/ ME / stored.xls"));
このは行います。
所属していません StackOverflow