سؤال

قد أكون مخطئا، ولكن كل ذلك (؟) أمثلة رأيتها مع Apache Hadoop يأخذ كمدخل ملف مخزن على نظام الملفات المحلية (مثل Org.apache.hadoop.examples.grep)

هل هناك طريقة لتحميل وحفظ البيانات على نظام ملفات Hadoop (HDFS)؟ على سبيل المثال، أضع ملف محدد علامة تبويب اسمه "stored.xls" على HDFS باستخدام hadoop-0.19.1/bin/hadoop dfs -put ~/local.xls stored.xls. وبعد كيف يمكنني تكوين Jobconf لقراءة ذلك؟

شكرًا .

هل كانت مفيدة؟

المحلول

Jobconf Conf = Jobconf الجديد (Getconf ()، ...)؛ ... fileinputformat.setInputPaths (conf، مسار جديد ("stored.xls")) ... JobClient.runjob (Conf)؛ ...

SetInputPaths سوف تفعل ذلك.

نصائح أخرى

بيير، التكوين الافتراضي ل Hadoop هو تشغيل في الوضع المحلي، بدلا من الوضع الموزع. من المحتمل أنك تحتاج إلى تعديل بعض التكوين في موقع Hadoop-site.xml. يبدو أن نظام الملفات الافتراضي الخاص بك لا يزال محلي، عندما يجب أن يكون HDFS: // youraDdress: yourport. إلقاء نظرة على الإعداد الخاص بك ل fs.default.name، وكذلك رؤية تعليمات الإعداد في مايكل نول بلوق لمزيد من التفاصيل.

fileinputformat.setInputPaths (CONF، مسار جديد ("HDFS: // hostname: منفذ / مستخدم / ME / STORED.XLS")؛

هذا سوف تفعل

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top