سؤال

هل أحد منكم جرب Hadoop؟هل يمكن استخدامه بدون نظام الملفات الموزع الذي يتوافق معه، في بنية لا تشارك شيئًا؟هل هذا منطقي؟

أنا مهتم أيضًا بأي نتائج أداء لديك ...

هل كانت مفيدة؟

المحلول

نعم، يمكنك استخدام Hadoop على نظام ملفات محلي باستخدام معرفات URI للملفات بدلاً من معرفات URI لـ hdfs في أماكن مختلفة.أعتقد أن الكثير من الأمثلة التي تأتي مع Hadoop تفعل ذلك.

ربما يكون هذا جيدًا إذا كنت تريد فقط معرفة كيفية عمل Hadoop والنموذج الأساسي لتقليل الخريطة، لكنك ستحتاج إلى أجهزة متعددة ونظام ملفات موزع للحصول على الفوائد الحقيقية لقابلية التوسع المتأصلة في البنية.

نصائح أخرى

يمكن تشغيل Hadoop MapReduce على أي عدد من أنظمة الملفات أو حتى على مصادر بيانات أكثر تجريدية مثل قواعد البيانات.في الواقع، هناك فئتان مدمجتان لدعم نظام الملفات غير HDFS، مثل S3 و بروتوكول نقل الملفات.يمكنك بسهولة إنشاء تنسيق الإدخال الخاص بك أيضًا عن طريق توسيع التنسيق الأساسي فئة تنسيق الإدخال.

ومع ذلك، فإن استخدام HDFS يجلب مزايا معينة.الميزة الأكثر فاعلية هي أن برنامج جدولة المهام MapReduce سيحاول تنفيذ الخرائط وتقليل عدد الأجهزة الفعلية التي تخزن السجلات التي تحتاج إلى معالجة.يؤدي هذا إلى تعزيز الأداء حيث يمكن تحميل البيانات مباشرة من القرص المحلي بدلاً من نقلها عبر الشبكة، الأمر الذي قد يكون أبطأ من حيث الحجم اعتمادًا على الاتصال.

كما قال جو، يمكنك بالفعل استخدام Hadoop بدون HDFS.ومع ذلك، يعتمد معدل النقل على قدرة المجموعة على إجراء العمليات الحسابية بالقرب من مكان تخزين البيانات.استخدام HDFS له فائدتان رئيسيتان IMHO 1) يتم نشر الحساب بشكل أكثر توازناً عبر المجموعة (تقليل كمية الاتصال بين العقد) و2) المجموعة ككل أكثر مقاومة للفشل بسبب عدم توفر البيانات.

إذا كانت بياناتك مقسمة بالفعل أو قابلة للتقسيم بشكل تافه، فقد ترغب في النظر في توفير وظيفة التقسيم الخاصة بك لمهمة تقليل الخريطة الخاصة بك.

أفضل طريقة للتعرف على Hadoop هي تنزيله والبدء في استكشاف أمثلة التضمين.استخدم Linux box/VM وسيكون إعدادك أسهل بكثير من Mac أو Windows.بمجرد أن تشعر بالارتياح تجاه العينات والمفاهيم، ابدأ في رؤية كيف يمكن دمج مساحة المشكلة الخاصة بك في إطار العمل.

بعض الموارد التي قد تجدها مفيدة لمزيد من المعلومات حول Hadoop:

فيديوهات وعروض قمة Hadoop

هادوب:الدليل النهائي:نسخة القطع الخام - هذا أحد الكتب القليلة (فقط؟) المتوفرة على Hadoop في هذه المرحلة.أود أن أقول إن الأمر يستحق ثمن خيار التنزيل الإلكتروني حتى في هذه المرحلة (الكتاب مكتمل بنسبة 40٪ تقريبًا).

Hadoop: The Definitive Guide: Rough Cuts Version

الحوسبة المتوازية/الموزعة = السرعة << Hadoop يجعل هذا أمرًا سهلاً ورخيصًا حقًا حيث يمكنك فقط استخدام مجموعة من الآلات السلعية !!!

على مر السنين، زادت سعة تخزين القرص بشكل كبير ولكن السرعات التي تقرأ بها البيانات لم تتماشى.كلما زاد عدد البيانات الموجودة على قرص واحد، كلما كانت عملية البحث أبطأ.

Hadoop هو البديل الذكي من نهج الانقسام لحل المشكلات.أنت تقوم بشكل أساسي بتقسيم المشكلة إلى أجزاء أصغر وتعيين القطع لعدة أجهزة كمبيوتر مختلفة لإجراء المعالجة بالتوازي معها تسريع الأشياء بدلاً من التحميل الزائد على جهاز واحد.يقوم كل جهاز بمعالجة مجموعته الفرعية من البيانات ويتم دمج النتيجة في النهاية.لن يمنحك Hadoop على عقدة واحدة السرعة المهمة.

لرؤية فائدة hadoop، يجب أن يكون لديك مجموعة بها ما لا يقل عن 4 إلى 8 أجهزة سلعية (حسب حجم بياناتك) على نفس الحامل.

لم تعد بحاجة إلى أن تكون مهندس أنظمة متوازية عبقري للغاية للاستفادة من الحوسبة الموزعة.فقط تعرف على hadoop مع Hive ومن الجيد أن تبدأ.

نعم، يمكن استخدام hadoop جيدًا بدون HDFS.HDFS هو مجرد مخزن افتراضي لـ Hadoop.يمكنك استبدال HDFS بأي وحدة تخزين أخرى مثل قواعد البيانات.HadoopDB عبارة عن زيادة على hadoop الذي يستخدم قواعد البيانات بدلاً من HDFS كمصدر للبيانات.جوجل ذلك، سوف تحصل عليه بسهولة.

إذا كنت تبتل قدميك للتو، فابدأ بتنزيل CDH4 وتشغيله.يمكنك التثبيت بسهولة في جهاز ظاهري محلي وتشغيله في "الوضع الموزع الزائف" والذي يحاكي بشكل وثيق كيفية تشغيله في مجموعة حقيقية.

نعم، يمكنك استخدام نظام الملفات المحلي باستخدام file:// أثناء تحديد ملف الإدخال وما إلى ذلك، وسيعمل هذا أيضًا مع مجموعات البيانات الصغيرة. لكن القوة الفعلية لـ hadoop تعتمد على آلية التوزيع والمشاركة.ولكن يتم استخدام Hadoop لمعالجة كمية هائلة من البيانات. لا يمكن معالجة هذه الكمية من البيانات بواسطة جهاز محلي واحد أو حتى إذا تمت معالجتها فسوف يستغرق الأمر الكثير من الوقت لإنهاء المهمة. نظرًا لأن ملف الإدخال الخاص بك موجود في موقع مشترك (HDFS) ) يمكن لمصممي الخرائط المتعددين قراءتها في وقت واحد وتقليل الوقت اللازم لإنهاء المهمة.باختصار، يمكنك استخدامه مع نظام الملفات المحلي ولكن لتلبية متطلبات العمل، يجب عليك استخدامه مع نظام الملفات المشترك.

إجابات نظرية كبيرة أعلاه.

لتغيير نظام ملفات hadoop الخاص بك إلى نظام محلي، يمكنك تغييره في ملف التكوين "core-site.xml" كما هو موضح أدناه لإصدارات hadoop 2.x.x.

 <property>
    <name>fs.defaultFS</name>
    <value>file:///</value>
  </property>

لإصدارات hadoop 1.x.x.

 <property>
    <name>fs.default.name</name>
    <value>file:///</value>
  </property>
مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top