فهرسة PDF مع أرقام الصفحات مع SOLR
-
28-09-2019 - |
سؤال
أنا فهرسة PDFs مع SOLR باستخدام extractingRequestHandler. أرغب في عرض رقم الصفحة جنبًا إلى جنب مع الزيارات في المستند ، على سبيل المثال "المصطلح foo
تم العثور عليه في bar.pdf
على الصفحات 2 و 3 و 5. "
هل من الممكن تضمين أرقام الصفحات في نتيجة الاستعلام مثل هذا؟
المحلول
سيتطلب ذلك بعض الجهد التنموي ، ولكن يمكنك تحقيق ذلك عن طريق فهرسة كل صفحة من كل مستند كوثائق SOLR منفصلة ، ثم استخدامها حقل الانهيار لتجميع صفحات الصفحة المختلفة لكل مستند.
لاحظ أنك تحتاج إلى ليلا لذلك ، لا يتم تنفيذ الحقل في أي إصدار SOLR الذي تم إصداره حاليًا.
ملاحظة أيضًا: يتم تنفيذ الانهيار الحقل في الإصدار SOLR 3.3. من المتوقع المزيد من التحديثات في الإصدار الكبير التالي ( SOLR 4.0)
لا تنتمي إلى StackOverflow