سؤال

أنا أقوم بتطبيق تطبيق بحث. Corpus هي مستندات نصية كبيرة. أثناء عملية الملف ، أقوم برمز كل الكلمات وأدعو خوارزمية Porter STEMMER Step1 (http://tartarus.org/~martin/porterStemmer/csharp2.txt).

تتخلص Step1 من التجمعات و- ED أو -ing ...

لقد لاحظت أن كلمة مثل "هذه" سوف تنبع في "ثي".

هل هذه العملية العادية للخوارزمية؟ منذ أن أردت رمز كلمة "هذا".

هل كانت مفيدة؟

المحلول

من ما تصفه ، حدسي هو ذلك this يعتبر شكلًا صياديًا في خوارزمية الحمال الجذعية ويقلل إلى thi.

لا أجد إشارة صريحة إلى الكلمات غير المتطابقة التي تنتهي s في ورقة بورتر.

http://tartarus.org/~martin/porterstemmer/def.txt

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top