質問

検索アプリケーションを実装しています。コーパスは大きなテキスト文書です。ファイルプロセス中に、すべての単語をトークン化し、Porter Stemmer Algorithm Step1(http://tartarus.org/~martin/porterstemmer/csharp2.txt)を呼び出します。

Step1は複数形を取り除き、-edまたは-ing ...

「This」のような単語が「Thi」に登場することに気付きました。

アルゴリズムの通常の動作ですか? 「これ」という言葉をトークン化したかったので。

役に立ちましたか?

解決

あなたが説明することから、私の予想はそれです this ポーターステムマーアルゴリズムの複数形と見なされ、 thi.

私は終わる非根本的な単語への明示的な参照を見つけられません s ポーターの論文で。

http://tartarus.org/~martin/porterstemmer/def.txt

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top