سؤال

أقوم بتطوير زاحف على شبكة الإنترنت ، وهو أمر جيد لتخزين البيانات؟ كاساندرا أو Hadoop Hive أو MySQL؟ ولماذا؟ لدي 1 تيرابايت من البيانات من 6 أشهر الماضية في MySQL DB ، أحتاج إلى فهرسها وأحتاج إلى وضع الخروج في البحث في أسرع وقت ممكن ، وكما أعتقد ، سوف تخزين المزيد من البيانات ، مثل 10 Peta Byes لأن زاحف يعمل بسرعة ، أحتاج إلى الحصول على عملية القراءة/الكتابة بسرعة ، أحتاج إلى دمجها في تطبيق PHP الخاص بي

هل كانت مفيدة؟

المحلول

هذا يعتمد على تفاصيل متطلباتك ، لكنني أعتقد أنه في حالتك ، سيكون HBase هو الخيار الأفضل.
تم توثيق استخدام HBase كقاعدة بيانات على شبكة الإنترنت بشكل جيد واستخدام HBase الموصوف في ورقة بيضاء Bigtable.

نصائح أخرى

أنت تبحث عن شيء يهدف إلى العثور على مستندات بناءً على محتواها - يجب أن يعتمد على فهرس مقلوب. أعتقد أن أكثر الملاءمة طبيعية ستكون لوكين.

أنظر أيضا هذه المقالة حول كومة Hadoop-lucene للاستعلام عن تيرابايت من المستندات.

يعتمد ذلك على متطلباتك ، واستخدم HBase في حالة التحليل السريع للوقت الحقيقي لبيانات البث. تعد كاساندرا الأنسب لسيناريوهات الكتابة السريعة ، حيث أن قراءتها بطيئة مقارنة بـ HBase.

الخلية هي أيضا بديل جيد. لتحسين أداء الخلية استخدام Impala.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top