Pregunta

Stemming es algo que se necesita en los sistemas de etiquetado. Puedo utilizar delicioso, y no tengo tiempo para gestionar y podar mis etiquetas. Estoy un poco más cuidadoso con mi blog, pero no es perfecto. Escribo software para sistemas embebidos que sería mucho más funcional (de gran ayuda para el usuario) si se incluyen derivados.

Por ejemplo:
analizar
analizador
Analizar

En caso de todas significan lo mismo a cualquier sistema que los estoy poniendo en.

Lo ideal es que hay una despalilladora licencia BSD en alguna parte, pero si no es así, ¿dónde miro para aprender los algoritmos y técnicas comunes para esto?

Además de lematizadores BSD, con lo que otros lematizadores licencia de código abierto están ahí fuera?

-Adán

¿Fue útil?

Solución

bola de nieve despalilladora (C & Java) Lo he utilizado es vinculante Python, PyStemmer

Otros consejos

Consulte el NLTK conjunto de herramientas escrito en Python. Tiene una muy funcional despalilladora .

Otra opción para detener sería WordNet, junto con uno de sus API . Algunos información básica sobre despalillado y lematización , incluyendo una descripción del algoritmo derivado Porter, se pueden encontrar en línea en Introducción a la Recuperación de Información .

Lucene tiene una despalilladora en, creo (y IIRC que le permite utilizar su propio si lo desea).

EDIT: Sólo marcada, y Lucence se refiere a la Snowball sitio que es una fuente abierta derivada biblioteca como lo que puedo decir.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top