Pregunta

Acabo de empezar con Lucene.net. Indegué 100,000 filas usando el analizador estándar, ejecuté algunas consultas de prueba y noté que las consultas plurales no devuelven resultados si el término original era singular. Entiendo que Snowball Analyzer agrega soporte de medición, lo que suena bien. Sin embargo, ¿me pregunto si hay algún inconveniente para Gong con bola de nieve sobre estándar? ¿Estoy perdiendo algo yendo con eso? ¿Hay otros analizadores a considerar?

¿Fue útil?

Solución

Sí, al usar un Stemmer como Snowball, está perdiendo información sobre la forma original de su texto. A veces esto será útil, a veces no.

Por ejemplo, la bola de nieve se detendrá "organización" en "órgano", por lo que una búsqueda de "organización" devolverá los resultados con "órgano", sin ninguna penalización de puntuación.

Si esto es apropiado o no para usted depende de su contenido, y del tipo de consultas que está admitiendo (por ejemplo, las búsquedas son muy básicas o son usuarios muy sofisticados y utilizan su búsqueda para filtrar con precisión los resultados). También es posible que desee buscar tallo menos agresivo, como Kstem.

Otros consejos

los bola de nieve El analizador aumentará su retiro, porque es mucho más agresivo que el analizador estándar. Entonces necesitas evaluar sus resultados de búsqueda para ver si para sus datos necesita aumentar recordar o precisión.

Acabo de terminar un analizador que realiza lemmatización. Eso es similar a Stemming, excepto que utiliza el contexto para determinar el tipo de palabra (sustantivo, verbo, etc.) y utiliza esa información para derivar el tallo. También mantiene la forma original de la palabra en el índice. Quizás mi biblioteca puede ser de utilidad para ti. Sin embargo, requiere Lucene Java, y no estoy al tanto de los lemmatizantes net C#/.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top