Портер stemmer алгоритм вопроса

https://stackoverflow.com/questions/4113902

29-09-2019
|

Вопрос

Я реализую поисковую заявку. Корпус - это большие текстовые документы. Во время файлового процесса я тонкризирую все слова и вызывающую цепочку Algorithm Algorithm Step1 (http://tartarus.org/~martin/porterstemmer/csharp2.txt).

Step1 избавляется от промоллов и или-скважин ...

Я заметил, что слово «это» будет вытеснено в «Thi».

Это нормальная работа алгоритма? Так как я хотел токизировать слово «это».

Решение

От того, что вы описываете, моя догадка this считается в качестве множественной формы в алгоритме Porter stemmer и уменьшено до thi.

Я не нахожу явную ссылку на нелюбильные слова, заканчивающиеся с s в статье Портера.

http://tartarus.org/~martin/porterstemmer/def.txt.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow