Hadoop لإنشاء فهرس وإضافة () إلى solr الموزعة ... هل هذا ممكن؟ هل يجب أن أستخدم Nutch؟ ..cloudera؟

https://stackoverflow.com/questions/4235892

26-09-2019
|

سؤال

هل يمكنني استخدام إطار عمل MapReduce لإنشاء فهرس وإضافته بطريقة أو بأخرى إلى SOLR الموزعة؟

لديّ انفجار من المعلومات (ملفات السجل والوثائق) التي سيتم نقلها عبر الإنترنت وتخزينها في مركز البيانات الخاص بي (أو Amazon). يجب تحليلها وفهرستها ، وأخيراً يمكن البحث فيها عن طريق تثبيت SOLR المتكرر.

ها هي الهندسة المعمارية المقترحة:

استخدم إطار عمل MapReduce (Cloudera ، Hadoop ، Nutch ، حتى دريادلين) لإعداد تلك المستندات للفهرسة
فهرس تلك المستندات في تنسيق ملف متوافق مع Lucene.net / Lucene (Java)
نشر هذا الملف على جميع مثيلات solr الخاصة بي
تنشيط هذا الفهرس المتكرر

إذا كان ذلك ممكنًا أعلاه ، فأنا بحاجة إلى اختيار إطار عمل MapReduce. نظرًا لأن Cloudera مدعوم من البائعين ولديه الكثير من البقع غير المدرجة في تثبيت Hadoop ، أعتقد أنه قد يكون من المفيد النظر إليه.

بمجرد اختيار إطار عمل Matpreduce ، أحتاج إلى تمييز المستندات (PDF ، DOCX ، DOC ، OLE ، إلخ ...) ، فهرسها ، انسخ الفهرس إلى مثيلات SOLR ، و "تنشيطها" بطريقة ما حتى يتم البحث فيها مثيل التشغيل. أعتقد أن هذه الأسلوب أفضل من تقديم المستندات عبر واجهة REST إلى SOLR.

السبب في أنني أحضر .NET إلى الصورة هو أننا في الغالب متجر .NET. إن UNIX / Java الوحيدة التي سنحصل عليها هي Solr ولديها واجهة أمامية تستفيد من واجهة الراحة عبر Solrnet.

بناءً على تجربتك ، كيف تبدو هذه الهندسة المعمارية؟ هل ترى أي مشاكل/مشاكل؟ ما النصيحة التي يمكنك تقديمها؟

ماذا علي ليس هل تفقد البحث عن الوجه؟ بعد قراءة وثائق Nutch ، أعتقد أنه قال إنه لا يعمل ، لكن قد لا يكون لدي خلفية كافية في هذا البرنامج لفهم ما يقوله.

المحلول

بشكل عام ، أنت ما وصفته هو بالضبط كيف يعمل Nutch. Nutch عبارة عن مجموعة أدوات الإجابة على الزحف والفهرسة ودمج الفهرس والاستعلام التي تستند إلى Hadoop Core.

يجب أن لا تمزج كلوديرا ، هادوب ، نوتش ولوكين. من المحتمل أن ينتهي بك الأمر إلى استخدامهم جميعًا:

نوتش هو اسم فهرسة / الرد (مثل solr) آلية.
يعمل Nutch نفسه باستخدام أ هادوب Cluster (الذي يستخدم بشكل كبير نظام الملفات الموزع الخاص به ، HDFS)
يستخدم نوتش لوكين تنسيق الفهارس
يتضمن Nutch استعلامًا للرد على المقدمة ، والذي يمكنك استخدامه ، أو يمكنك إرفاق ملف سولر الواجهة الأمامية واستخدم فهارس لوسين من هناك.
أخيراً، توزيع Cloudera Hadoop (أو CDH) هو مجرد توزيع Hadoop مع عدة عشرات من البقع المطبقة عليها ، لجعله أكثر استقرارًا وبعض الميزات المفيدة من فروع التطوير. نعم ، من المرجح أن ترغب في استخدامه ، إلا إذا كان لديك سبب لعدم ذلك (على سبيل المثال ، إذا كنت تريد حافة النزف Hadoop 0.22).

بشكل عام ، إذا كنت تبحث فقط عن حل محرك الزحف / البحث الجاهز ، فإن Nutch هو وسيلة للذهاب. يتضمن Nutch بالفعل الكثير من الإضافات لتحليل وفهرس أنواع مختلفة من المستندات المجنونة ، وتشمل مستندات MS Word ، PDFs ، إلخ ، إلخ.

أنا شخصياً لا أرى الكثير من نقطة استخدام .NET Technologies هنا ، ولكن إذا كنت تشعر بالراحة معها ، فيمكنك القيام بالواجهة الأمامية في .NET. ومع ذلك ، قد يشعر العمل مع Unix Technologies بحرج إلى حد ما بالنسبة لفريق Windows الذي يركز على Windows ، لذلك إذا كنت أدير مثل هذا المشروع ، فقد فكرت في بدائل ، خاصة إذا كانت مهمتك المتمثلة في الزحف والفهرسة محدودة (أي أنك لا تريد ذلك زحف الإنترنت بأكمله لبعض الغرض).

نصائح أخرى

هل نظرت إلى لوكاندرا https://github.com/tjake/lucandra نهاية خلفية مقرها Cassandra لـ Lucense/Solr والتي يمكنك استخدام Hadoop لملء متجر Cassandra مع فهرس بياناتك.

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow