Domanda

Stemming è qualcosa che è necessario nei sistemi di tagging. Io uso deliziosa, e non ho tempo per gestire e potare le mie tag. Sono un po 'più attento con il mio blog, ma non è perfetto. Scrivo software per sistemi embedded che sarebbe molto più funzionale (utile per l'utente) se hanno incluso derivanti.

Per esempio:
Analizza
parser
Analisi

Dovrebbe tutti significano la stessa cosa per qualsiasi sistema li sto mettendo in.

Idealmente c'è un BSD Stemmer licenza da qualche parte, ma se non, dove devo cercare di imparare gli algoritmi e tecniche comuni per questo?

A parte stemmer BSD, quali altri stemmer con licenza open source sono là fuori?

-Adam

È stato utile?

Soluzione

Snowball Stemmer (C & Java) L'ho usato è vincolante Python, PyStemmer

Altri suggerimenti

Controlla la NLTK toolkit scritto in Python. Ha un molto funzionale Stemmer .

Un'altra opzione per arginare sarebbe WordNet, insieme a una delle sue API . Alcuni informazioni di base sulla diraspatura e lemmatizzazione , compresa una descrizione della arginare algoritmo di Porter, si possono trovare online in Introduzione a Information Retrieval .

Lucene ha uno Stemmer in, credo (e IIRC che consente di utilizzare il proprio uno se si desidera).

EDIT: appena controllato, e Lucence si riferisce al sito Snowball , che è un open source derivante biblioteca come Per quanto posso dire.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top