Frage

Ich bin der Umsetzung einer Suchanwendung. Corpus ist große Textdokumente. Während Datei Prozess bin ich Zeichenüber alle Wörter und ruft Porter Stemmer-Algorithmus Schritt 1 (http://tartarus.org/~martin/PorterStemmer/csharp2.txt).

wird Schritt 1 loswerden Plurale und -ed oder -ing ...

bemerkte ich, dass ein Wort wie ‚dies‘ dämmt wird in ‚thi‘.

Ist das Normalbetrieb des Algorithmus? Da wollte ich ‚dies‘ das Wort tokenize.

War es hilfreich?

Lösung

Von dem, was Sie beschreiben, ist meine Vermutung, dass this als Pluralform in Porter Stemmer-Algorithmus und reduziert thi betrachtet wird.

Ich habe keinen ausdrücklichen Hinweis auf nicht-Plural Worte mit der Endung s in Porters Papier.

http://tartarus.org/~martin/PorterStemmer/def.txt

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top