تطبيق تطبيق MAPREDUCE في SCALA
-
12-09-2019 - |
سؤال
أرغب في معرفة إطار عمل طوق جيد وقوي، لاستخدامه من Scala.
المحلول
لإضافة إلى الإجابة على Hadoop: هناك اثنين على الأقل من مغريات Scala التي تجعل العمل مع Hadoop أكثر مساواة.
خريطة Scala تقلل (SMR): http://scala-blogs.org/2008/09/scalable-language-and-scalable.html.
شادوب: http://jonhnny-weslley.blogspot.com/2008/05/shadoop.html.
تحديث 5 أكتوبر. 11.
يوجد ايضا Scoobi. الإطار، الذي لديه التعبير الرائع.
نصائح أخرى
http://hadoop.apache.org/ هو اللغة اللغوية.
شخصيا، لقد أصبحت معجبا كبيرا من شرارة
لديك القدرة على القيام بحوس الحوسبة الكتلة في الذاكرة، مما يقلل بشكل كبير من النفقات العامة التي ستجربتها من عمليات Map Reduce كثيفة القرص.
منذ فترة رجوع، ركضت هذه المشكلة بالضبط وانتهت بكتابة كتابة البنية التحتية الصغيرة لجعلها سهلة استخدام Hadoop من Scala. لقد استخدمتها بمفردي لفترة من الوقت، لكنني حصلت في النهاية على وضعها على الويب. انها اسمها (في الأصل في الأصل) scalahadoop..
ل API Scala على رأس Hadoop Check Scoobi., ، لا يزال في التنمية الثقيلة ولكن يظهر الكثير من الوعد. هناك أيضا بعض الجهد لتنفيذ المجموعات الموزعة على رأس المسدس في حاضنة scala., ، ولكن هذا الجهد غير قابل للاستخدام حتى الآن.
هناك أيضا غلاف Scala جديد للمقاطعة من Twitter ساخنوبعد بعد أن تبحث لفترة وجيزة للغاية حول الوثائق الخاصة ب Scalding، يبدو أنه بينما يجعل التكامل مع متتالي أكثر سلاسة، لا يزال يحل ما أراه كمشكلة رئيسية مع المتتالية: النوع السلامة. تعمل كل عملية في المتتالية على TUPLES CASCADING (أساسا قائمة من القيم الحقلية مع أو بدون مخطط منفصل)، مما يعني أن أنواع الأخطاء النوعية، أي الانضمام إلى مفتاح كسلسلة ومفتاح كأداة قيادة طويلة إلى فشل وقت التشغيل.
لمزيد من نقطة جاسن:
البث هادوب يستخدم ببساطة مآخذ. باستخدام تدفقات UNIX، يجب أن تكون التعليمات البرمجية الخاصة بك (أي لغة) قادرة على القراءة من تدفقات StDin ومخرجات Delimited. قم بتنفيذ MAPPER وإذا لزم الأمر، مخفض (وإذا كانت ذات صلة، قم بتكوين ذلك كمجموع).