Pergunta

Eu preciso de um bom decorrentes algoritmo para um projeto que estou trabalhando. Foi sugerido que eu olhar para o Porter Stemmer. Quando eu chequei a página na stemmer Porter eu achei que ele é obsoleto agora a favor da stemmer "Snowball".

Eu preciso de um bom stemmer, mas eu realmente não posso passar um tempo significativo de execução (ou otimização) meu próprio. Qual é a melhor "off the shelf", stemmer disponível gratuitamente? Há algum stemmers não-livres disponível por um preço razoável? Ou, é o Snowball stemmer minha melhor aposta?

Foi útil?

Solução

O Porter2 stemmer é o que eu decidi ir com ele. Parecia que o stemmer porter era o padrão, mas quando eu encontrei a página do autor, ele recomendou a "Snowball (Porter2)" stemmer. Há uma ligação de porta C nesta página.

Outras dicas

Ela realmente depende de como você está planejando para aplicá-la. O Kit de Ferramentas de Linguagem Natural ( http://nltk.sourceforge.net ) tem uma série de derivações implementadas em que deve ser capaz de lidar com a maioria das aplicações. Eu prefiro o stemmer Morphy.

Claro, ele está disponível em Python, por isso, se você está trabalhando com outro idioma, você pode sempre olhar através do código para recolher o algoritmo e transferi-lo para seu idioma de escolha. Python é altamente legível.

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top