أي كلمة stemmer يجب أن أستخدمها في NLTK؟

https://stackoverflow.com/questions/1264847

13-09-2019
|

سؤال

هدفي هو تحليل بعض Corpus (تويتر لل الآن) للمحتوى العاطفي. لقد أدركت اليوم فقط أنه سيؤدي إلى الشعور بالفترة للبحث عن كلمة ينبع بدلا من وجود قائمة شاملة من الكلمة العاطفية ينبع. ولذا كنت أستكشف NLTK.stem فقط لإدراك أن هناك 4 مداحل مختلفة. أرغب في طلب اللغويين Stackoverflow سواء كانت Lancasterstemmer أو Porterstemmer أو Regexpstemmer أو RSLPSTEMMER أو WordNetStemmer هو الأفضل بشكل أفضل مع بعض التبرير.

المحلول

RSLP للبرتغالية. أنا أظن أنك تريد الإنجليزية. سيتطلب منك Regexp تطوير تعبيراتك الناشئة، لذلك أعتقد أنه يمكن تجاهله أيضا. يتطلب WordNetStemmer أنك تعرف جزء الكلام من أجل الكلمة، لذلك يجب عليك القيام بوضع علامة POS أولا من أجل استخدامه. لقد استخدمت خوارزمية Stemming Streter وجيدة جدا، لكن خوارزمية Lancaster أحدث، لذلك قد يكون أفضل. قد ترغب في محاولة استخدام مزيج من Stemmers، حيث تختار أقصر ساق من كل Stemmer. على أي حال، خلاصة أسفل هو أن porterstemmer هو اختيار افتراضي جيد.

نصائح أخرى

قد يكون مختلفا بعض الشيء مما تسأل، ولكن تحتوي مكتبة Nodebox Lingustics على is_emotive () الوظيفة التي يبدو أنها تحقق من الكلمات لمعرفة ما إذا كانت فدوثات متكررة لبعض الكلمات العاطفية. من العمليات الاجتماعية

    ekman = ["anger", "disgust", "fear", "joy", "sadness", "surprise"]
    other = ["emotion", "feeling", "expression"]

ليس Stemmer، ولكن نهج مثير للاهتمام للتحقق منه.

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow