Question

Je suis une application de mise en œuvre de la recherche. Corpus est gros documents texte. Au cours du processus de fichier je suis tokenizing tous les mots et appeler algorithme Porter Stemmer Etape 1 (http://tartarus.org/~martin/PorterStemmer/csharp2.txt).

Etape 1 se débarrasse des pluriels et -ed ou -ing ...

Je remarque qu'un mot comme « ceci » sera en découle « thi ».

est-ce que le fonctionnement normal de l'algorithme? Depuis que je voulais tokenizer le mot « ceci ».

Était-ce utile?

La solution

D'après ce que vous décrivez, mon intuition est que this est considérée comme forme plurielle dans l'algorithme Porter Stemmer et réduit à thi.

Je ne trouve pas une référence explicite à des mots non pluriel se terminant par s dans le document de Porter.

http://tartarus.org/~martin/PorterStemmer/def.txt

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top