Frage

Ich brauche ein gutes stamm Algorithmus für ein Projekt arbeite ich an. Es wurde vorgeschlagen, dass ich an dem Porter Stemmer aussehen. Wenn ich die Seite auf dem Porter stemmer ausgecheckt fand ich, dass es jetzt für den „Snowball“ stemmer ist veraltet.

Ich brauche ein gutes stemmer, aber ich kann nicht wirklich viel Zeit verbringen Umsetzung (oder Optimierung) meine eigenen. Was ist die beste „von der Stange“, frei verfügbar stemmer? Gibt es unfreie Abbeermaschinen zu einem vernünftigen Preis zur Verfügung? Oder ist der Schneeball stemmer meine beste Wette?

War es hilfreich?

Lösung

Der Porter2 stemmer ist diejenige, die ich entschieden habe, mit zu gehen. Es schien der Portier stemmer den Standard, aber wenn ich die Seite des Autors fand er empfohlen, die „Schneeball (Porter2)“ stemmer. Es gibt ein C-Port Link auf dieser Seite.

Andere Tipps

Es hängt wirklich davon ab, wie Sie planen, es zu übernehmen. The Natural Language Toolkit ( http://nltk.sourceforge.net ) hat eine Reihe von Stammerkennungen darin ausgeführt, dass sollten die meisten Anwendungen zu handhaben können. Ich ziehe den Morphy stemmer.

Natürlich ist es in Python zur Verfügung, so dass, wenn Sie mit einer anderen Sprache arbeiten, können Sie immer den Code schauen durch den Algorithmus aufzulesen und übertragen der Wahl Ihrer Sprache. Python ist sehr gut lesbar.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top