سؤال

أنا أقوم ببناء وظيفة Mapreduce Hadoop (0.20.1) التي تستخدم HBASE (0.20.1) ككل من مصدر البيانات ومغسلة البيانات. أرغب في كتابة المهمة في Python التي تتطلب مني استخدام Hadoop-0.20.1-Streaming.jar لإدارة البيانات من وإلى البرامج النصية بيثون. هذا يعمل بشكل جيد إذا كان مصدر البيانات / المصدر هو ملفات HDFS.

هل يدعم Hadoop من / إلى HBase ل Mapreduce؟

هل كانت مفيدة؟

المحلول

يبدو أن هذا يفعل ما أريد لكنه ليس جزءا من توزيع هادوب. أي اقتراحات أو تعليقات أخرى لا تزال موضع ترحيب.

http://github.com/wanpark/hadoop-hbase-Streaming.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top