Question

débutez avec Lucene.Net. J'indexé 100.000 lignes en utilisant un analyseur standard, couru quelques requêtes de test, et a remarqué des requêtes plurielles ne renvoient pas les résultats si le terme original était singulier. Je comprends boule de neige analyseur ajoute provenant de soutien, qui sonne bien. Cependant, je me demande s'il y a des inconvénients à gongs avec boule de neige sur la norme? Suis-je perdre quoi que ce soit en allant avec elle? Y at-il d'autres analyseurs sur place pour prendre en compte?

Était-ce utile?

La solution

Oui, en utilisant un égrappoir comme la boule de neige, vous perdez des informations sur la forme originale de votre texte. Parfois, cela sera utile, parfois pas.

Par exemple, boule de neige découlera « organisation » dans « organe », donc une recherche pour « organisation » obtenir des résultats avec « organe », sans aucune pénalité de notation.

Si oui ou non ce vous convient dépend de votre contenu, et sur le type de questions que vous soutenez (par exemple, sont les recherches très basique, ou sont des utilisateurs très sophistiqués et en utilisant votre recherche pour filtrer avec précision vers le bas les résultats ). Vous pouvez également regarder dans stemmers moins agressifs, tels que KStem .

Autres conseils

L'analyseur boule de neige augmentera votre rappel, car il est beaucoup plus agressif que l'analyseur standard. Vous devez donc évaluer vos résultats de recherche pour voir si vos données, vous devez augmenter rappel ou précision .

I qui vient de terminer un analyseur qui effectue lemmatisation. C'est similaire à endiguer, sauf qu'il utilise le contexte pour déterminer le type d'un mot (nom, verbe, etc.) et utilise cette information pour obtenir la tige. Il conserve également la forme originale du mot dans l'index. Peut-être ma bibliothèque peut être utile pour vous. Il nécessite Java Lucene, cependant, et je ne suis pas au courant de tout C # /. NET lemmatizers.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top