Lucene Standard Analyzer vs Snowball

https://stackoverflow.com/questions/3875382

28-09-2019
|

質問

lucene.netを始めたばかりです。標準アナライザーを使用して100,000行のインデックスを付け、テストクエリをいくつか実行し、元の用語が単数形である場合、複数のクエリが結果を返さないことに気付きました。 Snowball AnalyzerがStemming Supportを追加していることを理解していますが、これはいいですね。しかし、私は標準上で雪だるまとゴングに欠点があるのだろうかと思っていますか？私はそれを使って何かを失っていますか？考慮すべき他のアナライザーはありますか？

解決

はい、スノーボールなどのステムマーを使用することで、テキストの元の形に関する情報を失っています。時にはこれが役立つ場合もありますが、そうでない場合もあります。

たとえば、スノーボールは「組織」に「組織」を「オルガン」に浸透させるため、「組織」の検索は、得点ペナルティなしで「オルガン」で結果を返します。

これがあなたに適しているかどうかは、あなたのコンテンツ、そしてあなたがサポートしているクエリのタイプに依存するかどうか（たとえば、検索は非常に基本的であるか、ユーザーが非常に洗練されており、検索を使用して結果を正確にフィルタリングします）。また、攻撃性の低いステムマーを調べてみることもできます。 KSTEM.

他のヒント

スノーボールアナライザーは、標準のアナライザーよりもはるかに攻撃的であるため、リコールを増やします。だからあなたはそうする必要があります評価あなたのデータが増加する必要があるかどうかを確認するための検索結果リコールまたは精度.

lemmatizationを実行するアナライザーを完了しました。これは、単語のタイプ（名詞、動詞など）を決定するためにコンテキストを使用し、その情報を使用してステムを導出することを除いて、ステミングに似ています。また、インデックス内の単語の元の形式を保持します。多分私の図書館あなたに役立つことができます。ただし、Lucene Javaが必要であり、C＃/。ネットlemmatizersを知りません。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow