ポーターが幹を発するアルゴリズムに関する混乱
-
12-10-2019 - |
質問
私はポーターステミングアルゴリズムを実装しようとしていますが、この時点でつまずきました
正方形の括弧は、その内容の任意の存在を示しています。 (vc){m}を使用してVCを繰り返しmを示すために、これは再びと書かれている可能性があります
[C](VC){m}[V].
mは、この形式で表された場合、任意の単語または単語部分の測定と呼ばれます。ケースM = 0はヌルワードをカバーします。ここではいくつかの例を示します。
m=0 TR, EE, TREE, Y, BY. m=1 TROUBLE, OATS, TREES, IVY. m=2 TROUBLES, PRIVATE, OATEN, ORRERY.
この「測定」とは何ですか?
解決
尺度は、母音がすぐに子音が続く回数の数であるように見えます。例えば、
「トラブル」には次のようなものがあります
オプションの初期子音 [C]
= "tr"。
First Vowels-Consonantsグループ (VC)
= "oubl"。
2番目の母音 - コンソナントグループ (VC)
= "es"。
オプションのエンディング母音 [V]
空です。
したがって、測定値は2、回数です (VC)
「一致」されました。
所属していません StackOverflow