Stemming - esempi di codice o progetti open source?
Domanda
Stemming è qualcosa che è necessario nei sistemi di tagging. Io uso deliziosa, e non ho tempo per gestire e potare le mie tag. Sono un po 'più attento con il mio blog, ma non è perfetto. Scrivo software per sistemi embedded che sarebbe molto più funzionale (utile per l'utente) se hanno incluso derivanti.
Per esempio:
Analizza
parser
Analisi
Dovrebbe tutti significano la stessa cosa per qualsiasi sistema li sto mettendo in.
Idealmente c'è un BSD Stemmer licenza da qualche parte, ma se non, dove devo cercare di imparare gli algoritmi e tecniche comuni per questo?
A parte stemmer BSD, quali altri stemmer con licenza open source sono là fuori?
-Adam
Altri suggerimenti
Controlla la NLTK toolkit scritto in Python. Ha un molto funzionale Stemmer .
Un'altra opzione per arginare sarebbe WordNet, insieme a una delle sue API . Alcuni informazioni di base sulla diraspatura e lemmatizzazione , compresa una descrizione della arginare algoritmo di Porter, si possono trovare online in Introduzione a Information Retrieval .