أفضل محلل عبر اللغة لاستخدام مع مؤشر لوسين [مغلقة]

StackOverflow https://stackoverflow.com/questions/1001003

  •  05-07-2019
  •  | 
  •  

سؤال

وأنا أبحث عن ردود الفعل التي محلل للاستخدام مع مؤشر لديها وثائق من لغات متعددة. حاليا أنا باستخدام simpleanalyzer، كما يبدو للتعامل مع أوسع قدر من اللغات. ومعظم الوثائق التي يتم فهرستها هي اللغة الإنجليزية، ولكن سيكون هناك في بعض الأحيان لغة مزدوجة البايت فهرستها كذلك.

هل هناك أي اقتراحات أخرى أو ينبغي أن مجرد عصا مع simpleanalyzer.

والشكر

هل كانت مفيدة؟

المحلول

وSimpleAnalyzer هو حقا بسيطة، كل ما يفعله هو أقل حدة الشروط. كنت قد فكرت أن StandardAnalyzer من شأنه أن يعطي نتائج أفضل من SimpleAnalyzer حتى مع البيانات بلغة غير الإنجليزية. كنت ربما يمكن تحسينه قليلا من خلال تقديم قائمة مخصصة من كلمات التوقف بالإضافة إلى تلك اللغة الانجليزية الافتراضية.

نصائح أخرى

ومن وصفك، وافترض أن يكون لديك وثيقة من عدة لغات ولكن كل وثيقة ديه نص بلغة واحدة فقط.

لهذه الحالة، يمكنك استخدام تحديد لغة Nutch للحصول لغة الوثيقة. ثم استخدم محلل لغة منها إلى مؤشر. للحصول على النتائج الصحيحة للبحث، تحتاج تطبيق تحديد اللغة لاستعلام البحث، واستخدام هذا المحلل.

والاتجاه الصعودي هنا هو أنك سوف تكون قادرا على استخدام محلل جذوع وكلمات الإيقاف بلغة معينة، مما دفع جودة البحث حتى. الحمل الزائد في حين ينبغي أن يكون الفهرسة مقبول. يستعلم البحث حيث فشل تحديد اللغة لتحديد اللغة الصحيحة قد يعانون بالرغم من ذلك. ولقد استخدمت هذه بضع سنوات الى الوراء وكانت النتائج أفضل مما كان متوقعا.

لCJK، يمكنك تطبيق تقنية مماثلة ولكن الأدوات قد تكون مختلفة.

ولقد استعملت StandardAnalyzer مع كلمات بلغة غير اللغة الإنجليزية، وأنه يعمل على ما يرام. حتى انها تتعامل مع أحرف معلمة. إذا كانت اللغة هي CJK (الصينية، اليابانية، الكورية)، الروسية أو الألمانية قد تكون لديها مشاكل، ولكن أظن معظم المشاكل سوف تكون ذات صلة نابعة من الكلمات. إذا لم يكن لديك ميزة التجزئة تمكين، فإنه من المحتمل أن يكون كافيا.

والادلة بحتة، ولكن نحن نستخدم (حسب الطلب، ولكن ليس بأي شكل من الأشكال ذات الصلة) نسخة من StandardAnalyzer لنظامنا. قد لا تكون وثائقنا فقط في لغات مختلفة مع بعضها البعض، ولكن قد تحتوي على وثائق قطع من لغات مختلفة (على سبيل المثال، تخيل مقال كتبه باللغة اليابانية مع تعليق باللغة الإنجليزية)، لذلك اللغة استنشاق أمر صعب.

وغالبية الوثائق لدينا هي في اللغة الإنجليزية، ولكن أعدادا كبيرة هم في الصينية واليابانية، مع عدد أقل في الفرنسية والأسبانية والبرتغالية والكورية.

والنتيجة النهائية؟ نحن نستخدم StandardAnalyzer، وعدد قليل جدا من الشكاوى من الأشخاص الذين يستخدمون نظام بلغات غير لاتينية حول الطريقة التي يعمل لدينا البحث. نظامنا هو إلى حد ما "القسري" على مستخدميها، بالمناسبة، لذلك ليست مثل الناس لا يشكون ولكن تتحرك في أي مكان آخر. لو انهم غير راضين، ونحن نعلم عموما.

وهكذا استنادا إلى حقيقة أنني لا تغرق مع شكاوى المستخدمين (منها عرضية جدا، وذلك أساسا عن الصينية، ولكن لا شيء خطير وانهم أوضح بسهولة) يبدو أن "جيدة بما فيه الكفاية" لكثير من الحالات.

والجواب الصحيح يعتمد على اللغة الرئيسية (إن وجدت).

لأفضل أداء IR عبر لغة كنت اذهب مع محلل 05/04 غراما، أظهرت أن يعمل كبيرة على العديد من اللغات. حتى أنه قد عمل أفضل من SimpleAnalyzer للغة الإنكليزية أيضا. انظر http://www.eecs.qmul.ac. المملكة المتحدة / ~ كريستوف / أتش تي أم أل / المطبوعات / inrt142.pdf على سبيل المثال.

لقد بحثت في هذا ، ولكن من زاوية أخرى. يبدو وكأنه لم يكن هناك والتقاط كل محلل - كل لغة تحتاج نهجه الخاص لتحقيق أفضل النتائج

أولا، يجب أن تجد أن ما هو لغتك الخاصة بك؟ على سبيل المثال المستندات هي في اللغة الإنجليزية، جابانيس أو الفارسية. يمكنك أن تجد أن لغة المستند عن طريق عملية على UTF-8 أحرف.

وبعد ذلك، عندما تجد أن المستند الخاص بك في أي لغة، يمكنك تحليل ذلك مع محلل محدد.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top