كتلة هادوب. 2 بسرعة، 4 متوسطة، 8 آلات أبطأ؟

StackOverflow https://stackoverflow.com/questions/976250

  •  13-09-2019
  •  | 
  •  

سؤال

نحن بصدد شراء بعض الأجهزة الجديدة لاستخدامها فقط لمجموعة هادوب ونحن عالقون على ما يجب علينا شرائه. قل لدينا ميزانية 5K يجب أن نشتري اثنين من آلات لطيفة فائقة بسعر 2500 دولار / كل أربعة في حوالي 1200 دولار / كل منها أو ثمانية في حوالي 600 دولار لكل منهما؟ هل يعمل هادوب بشكل أفضل مع آلات أكثر أبطأ أو أقل آلات أسرع بكثير؟ أو، مثل معظم الأشياء "ذلك" يعتمد "؟ :-)

هل كانت مفيدة؟

المحلول

أنت عموما أفضل حالا مع Hadoop الحصول على عدد قليل من الآلات الإضافية التي تكون أقل سمين. أنت تقريبا لا ترى أبدا DatoNodes مع أكثر من 16 جيجابايت من وحدات المعالجة المركزية رباعية النواة المزدوجة، وغالبا ما تكون أصغر من ذلك.

يجب عليك دائما تشغيل واحدة باعتبارها Namenode (Master)، وعليا، لا تعمل أيضا أيضا على تشغيل DataNode (عامل / عبدا) في نفس المربع، على الرغم من أنك تستطيع ذلك لأن الكتلة الخاصة بك صغيرة. على افتراض أنك لا، على الرغم من أن الحصول على 2 آلات ستتركك عقدة عمل واحدة فقط، والتي تهزم إلى حد ما الغرض. (ليس تماما، لأنه لا يزال بإمكانك تشغيل 4-8 وظيفة بالتوازي على الرقيق، ولكن لا يزال.

في الوقت نفسه، لا ترغب في الحصول على مجموعة من 1000 486s. إذا كانت ميزانيتك 5K دولار، فسأضرب التوازن والقيام ب 4 دولارات من آلات 1200 دولار. ستوفر هذه الأساس اللائق من حيث الأداء الفردي، سيكون لديك 3 DatoNodes لتوزيع العمل على، وستحصل على مساحة لتنمو الكتلة الخاصة بك إذا كنت بحاجة إليها.

الأشياء التي يجب مراعاتها: سترغب في تشغيل خريطة متعددة أو تقليل المهام لكل DataNode، وهذا يعني تشغيل JVMS متعددة في وقت واحد. سأحاول الحصول على ما لا يقل عن 4 جيجابايت، ويفضل أن تكون ذاكرة الوصول العشوائي 8GB. وحدة المعالجة المركزية أقل أهمية لأن معظم وظائف السيد هي ملزمة IO. من المرجح أن تحصل على آلة مثل هذا للحصول على هدف السعر الخاص بك 1200 دولار، وهذا هو تصويتي.

نصائح أخرى

باختصار، تريد الحد الأقصى لعدد النوى ومعالجات الأقراص. يمكنك التضحية بالموثوقية والجودة، ولكن لا تحصل على أرخص الأجهزة هناك، كما سيكون لديك الكثير من مشاكل الموثوقية.

ذهبنا مع خوادم Dell 2XCPU 4-Core، لذلك 8 النوى لكل صندوق. 16 جيجابايت من الذاكرة لكل صندوق، وهو 2 جيجابايت لكل كور، منخفضة بعض الشيء كما تحتاج إلى الذاكرة على حد سواء للمهام الخاصة بك وعلى التخزين المؤقت للقرص. 5x500GB محركات الأقراص الصلبة، وأتمنى أننا نذهب إلى Terabyte أو أقراص أعلى بدلا من ذلك.

بالنسبة إلى محركات الأقراص، فإن رأيي هو شراء المزيد من محركات الأقراص الرخيصة والبطيئة وغير الموثوقة ذات السعة ذات السعة العالية بدلا من محركات الأقراص الأكثر تكلفة وأسرع وأصغر وموثوقية. إذا كنت تواجه مشاكل في إنتاجية القرص، فستساعد المزيد من الذاكرة في التخزين المؤقت.

ربما يكون هذا هو التكوين المعدني أكثر مما كنت تبحث عنه، ولكن الحد الأقصى من النوى ومحركات الأقراص مقابل شراء المزيد من الصناديق هو عموما تكاليف قوة أقل - أقل تكاليف طاقة، أسهل لإدارة، وأسرع لبعض العمليات.

المزيد من محركات الأقراص تعني المزيد من الإنتاجية في القرص في وقت واحد لكل كور، لذلك فإن وجود العديد من محركات الأقراص مثل النوى شيء جيد. يبدو أن المعيار يشير إلى أن تكوينات RAID أبطأ من تكوين JBOD (فقط تركيب محركات الأقراص وحمل Hadoop Strack عبرها) و JBOD هو أيضا أكثر موثوقية.

الاخير! تأكد من الحصول على ذاكرة ECC. Hadoop يدفع Terabytes من البيانات من خلال الذاكرة، ووجد بعض المستخدمين أن تكوينات الذاكرة غير ECC يمكن أن تقدم أحيانا أخطاء بت واحدة في مجموعات بيانات Terabyte. تصحيح هذه الأخطاء هو كابوس.

أوصي بإلقاء نظرة على هذا العرض التقديمي: http://www.cloudera.com/hadoop-training-thinking-scale.هنا يتم وصف المؤيدين المختلفة والمكونات.

أعتقد أن الإجابة تعتمد أيضا على توقعاتك في تنمو المجموعة وتكنولوجيا الشبكات التي تستخدمها. إذا كنت موافق مع إيثرنت 1 جيجابايت - ثم نوع الآلات أقل أهمية. في الوقت نفسه - إذا كنت تريد 10gbit Ethernet - يجب عليك اختيار عدد أصغر من الأجهزة الأفضل لتقليل تكلفة الشبكات.

مرجع آخر: http://hadoopillinated.com/hadoop_book/hardware_software.html.html.(إخلاء المسئولية: أنا مؤلف مشارك بهذا كتاب Hadoop المجاني)

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top