سؤال

هل يمكن لأي شخص أن يشيرني إلى مرجع أو تقديم نظرة عامة رفيعة المستوى حول كيفية وجود شركات مثل Facebook و Yahoo و Google، إلخ Al Argance على نطاق واسع (مثل نطاق متعدد TB) الذي يقومون به للعمليات وخاصة تحليلات الويب؟

التركيز على تحليلات الويب على وجه الخصوص، وأنا مهتم بجوانب اثنين ذات صلة عن كثب: أداء الاستعلام وتخزين البيانات.

أعلم أن النهج العام هو استخدام الخريطة تقلل لتوزيع كل استعلام عبر مجموعة (على سبيل المثال باستخدام Hadoop). ومع ذلك، ما هو أكثر تنسيق التخزين كفاءة لاستخدامها؟ هذه هي بيانات السجل، حتى نتمكن من تحمل كل حدث لديه ختم زمني، وهذا بشكل عام يتم تنظيم البيانات وغير متفرق. تنطوي معظم استفسارات تحليلات الويب على تحليل شرائح البيانات بين الطابع الزمني التعسفيين واسترجأ إحصاءات أو شاذة إجمالية في تلك البيانات.

هل ستكون DB DB موجهة نحو الأعمدة مثل طاولة كبيرة (أو HBASE) طريقة فعالة لتخزينها، والأهم من ذلك، استفسر هذه البيانات؟ هل تعمل حقيقة أنك تختار مجموعة فرعية من الصفوف (بناء على الطابع الزمني) تعمل ضد الفرضية الأساسية لهذا النوع من التخزين؟ هل سيكون من الأفضل تخزينها كبيانات غير منظمة، على سبيل المثال. مؤشر عكسي؟

هل كانت مفيدة؟

المحلول

لسوء الحظ، لا يوجد مقاس واحد يناسب الجميع.

أنا أستخدم حاليا بيانات متتالية، Hadoop، S3، و Aster لمعالجة العربات 100 في اليوم في اليوم من خلال خط أنابيب نظمها داخل AWS.

يتم استخدام بيانات ASTER للاستعلامات والإبلاغ نظرا لأنها توفر واجهة SQL إلى مجموعات البيانات الضخمة التي يتم تنظيفها وتحليلها بواسطة عمليات متتالية على Hadoop. باستخدام واجهات JDBC المتتالية، فإن تحميل بيانات Aster هي عملية تافهة تماما.

ضع في اعتبارك أدوات ذهنية مثل HBASE وفرط الظفر من متاجر المفتاح / القيمة، لذلك لا تقوم باستفسارات مخصصة وينضم دون مساعدة من تطبيق Map Reduce / المتتالي لإجراء الانضمام من الفرقة، وهو نمط مفيد للغاية.

في الكشف الكامل، أنا مطور على المشروع المتتالي.

http://www.asterdata.com/

http://www.cascading.org/

نصائح أخرى

الكتاب هيدوب: الدليل النهائي من قبل O'Reilly لديه فصل يناقش كيف يتم استخدام Hadoop في شركتين في العالم الحقيقي.

http://my.safaribooksonline.com/9780596521974/2014.

إلقاء نظرة على الورق تفسير البيانات: التحليل الموازي مع Sawzall بواسطة جوجل. هذه ورقة على أداة تستخدم Google لتحليل السجل.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top