Warum die Ergebnisse des Porter -Stemmer -Algorithmus, den ich nicht dem Wurzelwort entspricht, das sein sollte?

StackOverflow https://stackoverflow.com/questions/4516681

Frage

Ich muss den Porter -Stemmer -Algorithmus verwenden, um in meiner Anwendung ein Word zu erhalten, aber wenn ich den Algorithmus teste, aus dem ich bekomme http://www.tartarus.org/~martin/porterstemmer, Das Ergebnis des Stammes gibt mir nicht richtiges Stammwort, z. B. Happy -> Happi Virus -> Viru usw. Können Sie mir helfen, es zu lösen?

War es hilfreich?

Lösung

Zitieren aus Ihrem Verknüpfung:

2. Warum erzeugt der Stemmer keine richtigen Wörter?

Es wird oft als groben Fehler angesehen, dass ein Stammalgorithmus nach dem Entfernen des Stamms kein echtes Wort hinterlässt. Der Zweck des Stammes besteht jedoch darin, Variantenformen eines Wortes zusammenzubringen und kein Wort auf seine "Paradigm" -Form zuzuordnen.

Und damit verbunden,

3. Warum gibt es Fehler?

Die Frage kommt normalerweise in der Form: Warum sollte Wort X auf x1 stammen, wenn man erwartet hätte, dass es auf X2 stammt? Es ist wichtig, sich daran zu erinnern, dass der Stammalgorithmus keine Perfektion erreichen kann. Insgesamt wird es (oder kann) die IR -Leistung verbessern, aber in einzelnen Fällen kann es manchmal das machen, was oder was zu sein scheinen, Fehler. Dies ist natürlich eine andere Angelegenheit als eine zusätzliche Regel vorzuschlagen, die möglicherweise in den Stemmer zur Verbesserung ihrer Leistung aufgenommen wird.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top