質問

私はポーターステミングアルゴリズムを実装しようとしていますが、この時点でつまずきました

正方形の括弧は、その内容の任意の存在を示しています。 (vc){m}を使用してVCを繰り返しmを示すために、これは再びと書かれている可能性があります

[C](VC){m}[V].

mは、この形式で表された場合、任意の単語または単語部分の測定と呼ばれます。ケースM = 0はヌルワードをカバーします。ここではいくつかの例を示します。

m=0    TR,  EE,  TREE,  Y,  BY.
m=1    TROUBLE,  OATS,  TREES,  IVY.
m=2    TROUBLES,  PRIVATE,  OATEN,  ORRERY.

この「測定」とは何ですか?

役に立ちましたか?

解決

尺度は、母音がすぐに子音が続く回数の数であるように見えます。例えば、

「トラブル」には次のようなものがあります

オプションの初期子音 [C] = "tr"。

First Vowels-Consonantsグループ (VC) = "oubl"。

2番目の母音 - コンソナントグループ (VC) = "es"。

オプションのエンディング母音 [V] 空です。

したがって、測定値は2、回数です (VC) 「一致」されました。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top