كيف يمكننا إنشاء محرك بحث بسيط باستخدام لوسين، المؤسسة العامة أو Nutch؟

StackOverflow https://stackoverflow.com/questions/223536

  •  03-07-2019
  •  | 
  •  

سؤال

وشركتنا لديها الآلاف من وثائق PDF. كيف يمكننا إنشاء محرك بحث بسيط باستخدام لوسين، المؤسسة العامة أو Nutch؟ سنقوم بتوفير صفحة ويب الأساسية جافا / JSP كانت الناس يمكن أن اكتب في كلمات وأداء الأساسية و / أو استفسارات ثم تبين لهم صلات وثيقة من كل مطابقة لPDF.

هل كانت مفيدة؟

المحلول

وأي من المشاريع في الأسرة لوسين يمكن معالجة ملفات PDF أصلا، ولكن هناك المرافق يمكنك إسقاط أمثلة مكتوبة في وجيدا على كيفية لفة بنفسك.

وسوف وسين القيام الى حد كبير كل ما تحتاج أن تفعله، ولكن هناك في السماء من حيث الوقت الخاص بك، كما قال توني أعلاه. آلاف الوثائق في الحقيقة ليست <م> أن كثير، لذلك قد تكون قادرة على الابتعاد مع بديل أخف وزنا.

ومع ذلك، ما زال أنصح تبحث في المؤسسة العامة - انها بكثير، أسهل بكثير لاقامة من لوسين، لديها دعم من أجل النسخ الاحتياطي، والنسخ، وما إلى ذلك، فضلا عن واجهة JSON أنيق التي من شأنها أن تناسب حالة استخدام بشكل جيد للغاية : http://wiki.apache.org/solr/SolJSON

نصائح أخرى

ولقد كان حظا سعيدا مع لوسين، لكنها ليست فوق وتركيب والبحث، فإنه يتطلب قليلا من العمل.
إذا كنت بحاجة إلى شيء يو يمكن تحميل وتثبيت ويكون البحث في غضون 10 دقيقة، والنظر في حرة Ominifind ياهو الطبعة HTTP : //omnifind.ibm.yahoo.net/ ، ويستخدم لوسين، ولكن يتم حزم بحيث يتم تكوينه وجاهزة للتشغيل على تثبيت، وسيلة أسهل بكثير من محاولة لوسين

وNutch + لوسين + قوات الدفاع الشعبي البرنامج المساعد تمكين في Nutch هو الحل. Nutch يسمح لك لتحليل ملفات PDF من خلال تمكين المساعد قوات الدفاع الشعبي.

لوسين تسمح لك لمؤشر البيانات التي تم الزحف وتحليل وNutch ديه servelet التي تعطيك واجهة البحث.

ونحن نستخدم الشيء نفسه بالنسبة الشبكات المحلية الداخلية.

وأعتقد أنك تريد نظام لإدارة ملف PDF الخاصة بك. الرجاء محاولة استخدام نظام دي سبيس. دي سبيس هي مكتبة رقمية، وأنها تدعم لوسين على أساس. www.dspace.org.

ونلقي نظرة على برمجية مطبوعات إلكترونية . وهو يشتمل على سير العمل لإضافة وثائق جديدة، تلقائيا الفهارس والصور المصغرة PDF، ولها وظائف شاملة إلى حد ما بحث النص الكامل. ويمكن أيضا أن تكون مخصصة بسهولة وذات العلامات التجارية.

لماذا إعادة اختراع العجلة. مرة أخرى.

وردا على مثل هذا السؤال واسع في هذا المنتدى سيكون صعبا. فما استقاموا لكم فاستقيموا نوصي تحقق من الكتاب <م> لوسين في العمل و التي يغطي أساسيات فهرسة والبحث بطريقة قابلة للقراءة للغاية.

ونظرا التطبيق الخاص بك، فإنه يبدو وكأنه Nutch والمؤسسة العامة ربما لن تكون ضرورية. لأن جميع المستندات الخاصة بك متوفرة محليا، Nutch ربما لن يكون مفيدا. المؤسسة العامة قد تساعدك على إدارة مجموعة من الباحثين إذا كان لديك تحميل الاستعلام عالية، ولكن لوسين هو performant للغاية، ويتعامل مع مجموعات كبيرة الوثيقة بطريقة قابلة للغاية.

والمجال الوحيد الذي قد يستهلك الكثير من الجهد الخاص بك هو استخدام PDF. فمن الممكن لفهرسة الوثائق PDF، وهي التبرعات لوسين هناك لتسهيل استخراج الخام النص من ملفات PDF ، ولكن اعتمادا على الوثيقة، ونوعية النتائج يمكن أن تختلف. في كثير من الأحيان، وسياق الكلمة في وثيقة PDF غير واضح بسبب تنسيق التعليمات، والتي يمكن أن تجعل من الصعب القيام به عمليات البحث القرب أو إظهار سياق ضرب.

وقال كبير البحث التكنولوجيا مجانية قد ننظر هي IBM ياهو! البحث الحر. لست متأكدا ما إذا كانوا قدما في تنفيذ خطط لاستخدام لوسين تحت الأغطية، ولكنها لا تزال واحدة من عظيم حقا، من الشرق إلى استخدام تقنيات البحث المجانية. أنه يتعامل مع ما يصل الى 500K الوثائق، على ما أعتقد، وأنه يدعم PDF وغيرها من الأشكال غير نصية كذلك. واجهة المستخدم الرسومية؛ سهلة لتخصيص نتائج البحث، والتحليلات البحث الأساسية. المكنز الأساسي، وAPI قوية حتى تتمكن من القيام الى حد كبير ما تريد إذا كان من نتائج مربع لا ترضيك. لقد اقترح هذا إلى عدد من العملاء حيث كان هناك أقل من نصف مليون وثيقة، وأنهم يحبون ذلك.

إذا كنت قد خادم لينكس، يمكنك استخدام بيجل لفهرستها، ومن ثم مجرد استخدام وظيفة البحث التي تأتي معها. أنه يحتوي على (التجريبية) واجهة البحث على شبكة الإنترنت، ويمكن أن يكون مدمن مخدرات في مربع البحث فايرفوكس كذلك.

وتلقائيا ملفات الفهارس كما انهم المدرجة، وكنت تظن أنك سوف تجد أنه أكثر فاعلية لتعزيز أو إصلاح بيغل من أن يكتب واجهة البحث الخاصة لوسين.

وبعد أن (إيمهو) ميزة واضحة يجري على ماك، وأنا استخدم كشاف على G5 نوعا ما في السن. لطيفة واجهة ويب إلى دائرة الضوء، ونظام التشغيل ماك المدمج في خدمة الفهرسة.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top