Путаница по поводу алгоритма стемминга Портера

StackOverflow https://stackoverflow.com/questions/4520706

  •  12-10-2019
  •  | 
  •  

Вопрос

Я пытаюсь реализовать алгоритм стемминга Портера, но на этом этапе я споткнулся.

где квадратные скобки обозначают произвольное присутствие их содержимого.Использование (vc) {m} для обозначения повторного M -раз

[C](VC){m}[V].

m будет называться aeme of nome word или word part, когда представлено в этой форме.Корпус M = 0 охватывает нулевое слово.Вот некоторые примеры:

m=0    TR,  EE,  TREE,  Y,  BY.
m=1    TROUBLE,  OATS,  TREES,  IVY.
m=2    TROUBLES,  PRIVATE,  OATEN,  ORRERY.

Я не понимаю, что это за «мера» и что она означает?

Это было полезно?

Решение

Похоже, мерой является количество раз, когда за гласной сразу следует согласная.Например,

«БЕДЫ» имеет:

Необязательные начальные согласные [C] = "ТР".

Первая группа гласных-согласных (VC) = "ОУБЛ".

Вторая группа гласных-согласных (VC) = "ЕС".

Необязательные конечные гласные [V] пусто.

Итак, мера равна двум, количеству раз (VC) был «совпаден».

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top