سؤال خوارزمية بورتر جذع
-
29-09-2019 - |
سؤال
أنا أقوم بتطبيق تطبيق بحث. Corpus هي مستندات نصية كبيرة. أثناء عملية الملف ، أقوم برمز كل الكلمات وأدعو خوارزمية Porter STEMMER Step1 (http://tartarus.org/~martin/porterStemmer/csharp2.txt).
تتخلص Step1 من التجمعات و- ED أو -ing ...
لقد لاحظت أن كلمة مثل "هذه" سوف تنبع في "ثي".
هل هذه العملية العادية للخوارزمية؟ منذ أن أردت رمز كلمة "هذا".
المحلول
من ما تصفه ، حدسي هو ذلك this
يعتبر شكلًا صياديًا في خوارزمية الحمال الجذعية ويقلل إلى thi
.
لا أجد إشارة صريحة إلى الكلمات غير المتطابقة التي تنتهي s
في ورقة بورتر.
لا تنتمي إلى StackOverflow