تدفق البيانات وHadoop؟ (لا Hadoop الجري)

https://stackoverflow.com/questions/1217850

10-07-2019
|

سؤال

وأود أن تحليل دفق مستمر من البيانات (الوصول إليها عبر HTTP) باستخدام نهج مابريديوس، حتى لقد كانت تبحث في أباتشي هدوب. للأسف، يبدو أن Hadoop تتوقع بدء العمل مع ملف إدخال من حجم ثابت، بدلا من أن تكون قادرة لتسليم بيانات جديدة للمستهلكين وصولها. هذا هو واقع الحال، أو أنا في عداد المفقودين شيء؟ هل هناك أداة مابريديوس المختلفة التي تعمل مع البيانات التي يتم قراءة في من مأخذ مفتوح؟ التدرجية هي المسألة هنا، لذلك كنت أفضل أن تدع MapReducer التعامل مع الاشياء الموازاة الفوضى.

ولقد لعبت حوالي مع المتتالية و كان قادرا على تشغيل مهمة على ملف ثابت الوصول عبر HTTP، ولكن هذا الواقع لا حل مشكلتي. ويمكنني أن استخدام حليقة كخطوة وسيطة لتفريغ البيانات في مكان ما على ملفات Hadoop وكتابة الوكالة الدولية للطاقة لاطلاق وظيفة جديدة في كل مرة قطعة جديدة من البيانات جاهزة، ولكن هذا الإختراق القذرة. يجب أن يكون هناك بعض طريقة أكثر أناقة للقيام بذلك. أيه أفكار؟

المحلول

والإختراق تصفون هو أكثر أو أقل الطريقة القياسية لفعل الأشياء - Hadoop هي في الأساس نظام موجه دفعة (لشيء واحد، إذا لم يكن هناك نهاية للبيانات، المسننات لا يمكن أن تبدأ من أي وقت مضى، لأنها يجب أن تبدأ بعد الانتهاء من المرحلة الخريطة).

وتدوير السجلات الخاصة بك. كما تقوم بتدوير بها، ورميها في HDFS. تكون هناك عملية مراقبة (ربما وزعت واحد، منسقة باستخدام حارس الحديقة) رصد أسباب الإغراق والبدء في وظائف معالجة جديدة. وسوف تحتاج إلى التأكد من وظائف تعمل على مدخلات كبيرة بما يكفي لتبرير النفقات العامة.

وHbase هو استنساخ BigTable في النظام البيئي hadoop التي قد تكون مثيرة للاهتمام بالنسبة لك، لأنها تسمح للتيار المستمر للإدراج. سوف لا تزال بحاجة إلى تشغيل الاستعلامات التحليلية في دفعة واسطة، ولكن.

نصائح أخرى

وماذا عن http://s4.io/ . انها مصنوعة لمعالجة تدفق البيانات.

تحديث

ومنتج جديد آخذ في الارتفاع: العاصفة - وزعت والمتسامحة حساب الحقيقي: تجهيز تيار ومستمر حساب، موزعة RPC، وأكثر من ذلك

وأعتقد أن عليك أن نلقي نظرة على اسبير CEP ( http://esper.codehaus.org/).

http://s4.io/

وأن توفر في الوقت الحقيقي حوسبة تدفق المعلومات، مثل خريطة تقليل

التغريد هو ما تحتاج إليه، هل يمكن أن يكون محاولة!

وخيارات متعددة هنا. أقترح الجمع بين كافكا والعاصفة + (Hadoop أو NoSql) هو الحل. نحن نبني بالفعل لدينا منصة البيانات الكبيرة باستخدام تلك الأدوات مفتوحة المصدر، ويعمل بشكل جيد جدا.

وحالة استخدامك تبدو مماثلة لقضية كتابة الزاحف على شبكة الإنترنت باستخدام Hadoop - البيانات تيارات الظهر (ببطء) من مآخذ فتحت لجلب صفحات عن بعد عبر HTTP

وإذا كان الأمر كذلك، ثم انظر <لأ href = "http://ken-blog.krugler.org/2009/12/12/why-fetching-web-pages-doesnt-map-well-to-map-reduce / "يختلط =" نوفولو noreferrer "> لماذا صفحات الويب جلب لا يعين جيدا إلى خريطة-تقليل . وكنت قد ترغب في التحقق من الطبقة FetcherBuffer في Bixo، الذي ينفذ نهج الخيوط في المخفض (عبر المتتالية) على حل هذا النوع من المشاكل.

وكما تعلمون القضايا الرئيسية مع Hadoop للاستخدام في مجالات التعدين تيار هي حقيقة أولا، فإنه يستخدم HFDS وهو القرص والقرص عمليات جلب الكمون من شأنها أن تؤدي إلى فقدان البيانات في تيار. الثاني، هو أن خط أنابيب ليست موازية. خريطة للحد عموما يعمل على دفعات من البيانات وليس الحالات كما هو الحال مع تدفق البيانات.

ولقد قرأت مؤخرا مقالا عن M3 الذي يتناول العدد الأول على ما يبدو HDFS تجاوز وأداء العمليات الحسابية في الذاكرة في قاعدة بيانات الكائنات. وبالنسبة لقضية الثانية، وأنهم يستخدمون المتعلمين الإضافية التي لا يتم تنفيذها بعد الآن دفعة واحدة. تستحق التدقيق بها M3 : تجهيز تيار على الرئيسية الذاكرة مابريديوس . لم استطع العثور على شفرة المصدر أو API هذا M3 في أي مكان، إذا وجدت شخص ما فإنه يرجى مشاركة الرابط هنا.

وأيضا، Hadoop على الانترنت هو أيضا نموذج آخر المحاولات لحل القضايا نفسها كما يفعل M3: Hadoop اون لاين

ولكن، أباتشي العاصفة هو مفتاح الحل لهذه القضية، ولكن هذا ليس كافيا. كنت بحاجة الى بعض euqivalent خريطة-الحد من الحق، وهنا هو لماذا كنت في حاجة الى مكتبة دعا SAMOA الذي في الواقع خوارزميات كبيرة للتعلم عبر الإنترنت التي محوت يفتقر نوعا ما.

تتوفر في السوق

والعديد من الأطر تيار تجهيز ناضجة والمنتجات. أطر مفتوحة المصدر هي على سبيل المثال أباتشي العاصفة أو أباتشي سبارك (والتي يمكن على حد سواء تشغيلها على أعلى Hadoop). يمكنك أيضا استخدام منتجات مثل IBM ينفوسفيري تيارات أو تيبكو StreamBase.

ونلقي نظرة على هذه المادة InfoQ، وهو ما يفسر تجهيز تيار وجميع هذه الأطر والمنتجات في التفاصيل: <لأ href = "http://www.infoq.com/articles/stream-processing-hadoop" يختلط = " نوفولو "> في الوقت الحقيقي تيار تجهيز / لقطات تحليلات في تركيبة مع Hadoop . إلى جانب المادة ما يفسر أيضا كيف أن هذا هو مكمل لHadoop.

وبالمناسبة: العديد من منتجي البرمجيات مثل أوراكل أو الدعوة تيبكو هذه المعالجة تيار / يتدفقون تحليلات نهج "البيانات بسرعة" بدلا من "البيانات الكبيرة" لديك للعمل في الوقت الحقيقي بدلا من تجهيز الدفعات

ويجب عليك أن تحاول أباتشي سبارك الجري. يجب أن تعمل بشكل جيد لأغراضك.

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow