Путаница по поводу алгоритма стемминга Портера
-
12-10-2019 - |
Вопрос
Я пытаюсь реализовать алгоритм стемминга Портера, но на этом этапе я споткнулся.
где квадратные скобки обозначают произвольное присутствие их содержимого.Использование (vc) {m} для обозначения повторного M -раз
[C](VC){m}[V].
m будет называться aeme of nome word или word part, когда представлено в этой форме.Корпус M = 0 охватывает нулевое слово.Вот некоторые примеры:
m=0 TR, EE, TREE, Y, BY. m=1 TROUBLE, OATS, TREES, IVY. m=2 TROUBLES, PRIVATE, OATEN, ORRERY.
Я не понимаю, что это за «мера» и что она означает?
Решение
Похоже, мерой является количество раз, когда за гласной сразу следует согласная.Например,
«БЕДЫ» имеет:
Необязательные начальные согласные [C]
= "ТР".
Первая группа гласных-согласных (VC)
= "ОУБЛ".
Вторая группа гласных-согласных (VC)
= "ЕС".
Необязательные конечные гласные [V]
пусто.
Итак, мера равна двум, количеству раз (VC)
был «совпаден».