سؤال

أنا أستعمل lucene.net. لفهرسة المحتوى والوثائق وغيرها. على مواقع الويب. الفهرس بسيط للغاية ولديه هذا التنسيق:

Luceneid - معرف فريد من نوعه ل Lucene (نوع + Itemid) - نوع النص (على سبيل المثال. محتوى الصفحة والمنتجات والمنتجات العامة وغيرها.) Itemid - معرف صفحة الويب، معرف المستند، إلخ. نص - عنوان مفهرف النص - عنوان صفحة الويب، اسم المستند إلخ. لعرضه مع نتائج البحث

لدي هذه الخيارات لتكييفها لخدمة محتوى متعدد اللغات:

  1. إنشاء فهرس منفصل لكل لغة. على سبيل المثال lucene-eng، lucene-frfr etc ..
  2. احتفظ بمؤشر واحد وإضافة حقل "لغة" إضافي له لتصفية النتائج.

وهو الخيار الأفضل - أم أن هناك آخر؟ لم أستخدم فهارس متعددة قبل ذلك، لذلك أنا أميل نحو الثانية.

هل كانت مفيدة؟

المحلول

أفعل [2]، ولكن مشكلة واحدة لدي هي أنه لا يمكنني استخدام تحليلات مختلفة اعتمادا على اللغة. لقد جمعت كلمات التوقف عن اللغات التي أريدها، لكنني أفقد القدرة على المزيد من الأشياء المتقدمة التي سيقدمها المحلل مثل التنبيه إلخ.

نصائح أخرى

يمكنك القضاء على الخيار 1 و 2.
يمكنك استخدام فهرس واحد والحقول التي تحتوي على كلمات عربية إنشاء قدمين لكل منها: إذا كان لديك حقل "نص"قد تحتوي على محتويات باللغة العربية أو الإنجليزية ==>

  • إنشاء 2 حقول ل "نص": 1 مجال،"نص"، مفهرسة / بحثت مع محللك القياسي وآخر"text_ar."مع العربانية. من أجل تحقيق ذلك يمكنك استخدامpreficemanalyalwrapper.
مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top