Porter Stemmerアルゴリズムの質問
-
29-09-2019 - |
質問
検索アプリケーションを実装しています。コーパスは大きなテキスト文書です。ファイルプロセス中に、すべての単語をトークン化し、Porter Stemmer Algorithm Step1(http://tartarus.org/~martin/porterstemmer/csharp2.txt)を呼び出します。
Step1は複数形を取り除き、-edまたは-ing ...
「This」のような単語が「Thi」に登場することに気付きました。
アルゴリズムの通常の動作ですか? 「これ」という言葉をトークン化したかったので。
解決
あなたが説明することから、私の予想はそれです this
ポーターステムマーアルゴリズムの複数形と見なされ、 thi
.
私は終わる非根本的な単語への明示的な参照を見つけられません s
ポーターの論文で。
所属していません StackOverflow