Porter Stemmer-Algorithmus Frage
-
29-09-2019 - |
Frage
Ich bin der Umsetzung einer Suchanwendung. Corpus ist große Textdokumente. Während Datei Prozess bin ich Zeichenüber alle Wörter und ruft Porter Stemmer-Algorithmus Schritt 1 (http://tartarus.org/~martin/PorterStemmer/csharp2.txt).
wird Schritt 1 loswerden Plurale und -ed oder -ing ...
bemerkte ich, dass ein Wort wie ‚dies‘ dämmt wird in ‚thi‘.
Ist das Normalbetrieb des Algorithmus? Da wollte ich ‚dies‘ das Wort tokenize.
Lösung
Von dem, was Sie beschreiben, ist meine Vermutung, dass this
als Pluralform in Porter Stemmer-Algorithmus und reduziert thi
betrachtet wird.
Ich habe keinen ausdrücklichen Hinweis auf nicht-Plural Worte mit der Endung s
in Porters Papier.
Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow