Вопрос

Я реализую поисковую заявку. Корпус - это большие текстовые документы. Во время файлового процесса я тонкризирую все слова и вызывающую цепочку Algorithm Algorithm Step1 (http://tartarus.org/~martin/porterstemmer/csharp2.txt).

Step1 избавляется от промоллов и или-скважин ...

Я заметил, что слово «это» будет вытеснено в «Thi».

Это нормальная работа алгоритма? Так как я хотел токизировать слово «это».

Это было полезно?

Решение

От того, что вы описываете, моя догадка this считается в качестве множественной формы в алгоритме Porter stemmer и уменьшено до thi.

Я не нахожу явную ссылку на нелюбильные слова, заканчивающиеся с s в статье Портера.

http://tartarus.org/~martin/porterstemmer/def.txt.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top