سؤال

أنا أستخدم Lucene.Net لإنشاء موقع ويب للبحث في الكتب والمقالات وما إلى ذلك، المخزنة كملفات PDF.أحتاج إلى أن أكون قادرًا على تصفية نتائج البحث الخاصة بي بناءً على اسم المؤلف، على سبيل المثال.هل يمكن القيام بذلك باستخدام لوسين فقط؟أو هل أحتاج إلى قاعدة بيانات لتخزين حقول التصفية لكل مستند؟

وأيضًا، ما هي أفضل طريقة لفهرسة المستندات الخاصة بي؟سيكون لدي حوالي 50 مستندًا للبدء بها، وسأضطر بشكل دوري إلى إضافة مجموعة من المستندات إلى الفهرس - ربما يكون ذلك من خلال نموذج ويب.هل يجب علي استخدام قاعدة بيانات لتخزين مسارات المستند؟

شكرًا.

هل كانت مفيدة؟

المحلول

فيما يلي قائمة بما تحتاج إلى القيام به في المنظمة البحرية الدولية:

  1. استخراج النص الخام من PDF - يرجى الاطلاع هذا السؤال الذي يوصي iTextSharp لهذا الغرض.
  2. لكل مستند PDF، قم بإنشاء مستند Lucene.net الذي يحتوي على عدة حقول:المؤلف والعنوان ونص المستند وأي شيء تريد البحث عنه.من المستحسن أيضًا أن يكون لديك حقل معرف فريد لكل مستند.أقترح عليك أيضًا تخزين حقل يحتوي على المسار إلى مستند PDF الأصلي.
  3. بعد فهرسة جميع المستندات، سيكون لديك فهرس لوسين يمكنك البحث فيه حسب الحقول.
  4. يمكنك إضافة مستندات جديدة عن طريق تكرار الخطوة 2.من الأسهل القيام بذلك دون الاتصال بالإنترنت - فالتحديثات المتزايدة صعبة.

نصائح أخرى

لوسين وقد اثنين من تحليل المختلفة التي يمكن فرك خارج الضوضاء والقيام "وقف" وهو أمر مفيد عندما تريد القيام به البحث عن نص كامل، ولكن كنت لا تزال بحاجة الى الذهاب الى تخزين PDF نفسها في مكان ما. Lucene.Net غير سعيدة لإنشاء فهرس على نظام الملفات، ويمكنك إضافة حقل إلى الوثيقة أنه يبني يسمى شيء من هذا القبيل "PATH" مع المسار إلى المستند.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top