Портер stemmer алгоритм вопроса
-
29-09-2019 - |
Вопрос
Я реализую поисковую заявку. Корпус - это большие текстовые документы. Во время файлового процесса я тонкризирую все слова и вызывающую цепочку Algorithm Algorithm Step1 (http://tartarus.org/~martin/porterstemmer/csharp2.txt).
Step1 избавляется от промоллов и или-скважин ...
Я заметил, что слово «это» будет вытеснено в «Thi».
Это нормальная работа алгоритма? Так как я хотел токизировать слово «это».
Решение
От того, что вы описываете, моя догадка this
считается в качестве множественной формы в алгоритме Porter stemmer и уменьшено до thi
.
Я не нахожу явную ссылку на нелюбильные слова, заканчивающиеся с s
в статье Портера.
Не связан с StackOverflow