Frage

Erst mit Lucene.net anfängt. Ich habe 100.000 Zeilen mit dem Standardanalysator indexiert, einige Testabfragen durchgeführt und festgestellt, dass Pluralfragen die Ergebnisse nicht zurückgeben, wenn der ursprüngliche Begriff einzigartig war. Ich verstehe, dass Snowball Analyzer eingesteckte Unterstützung hinzufügt, was gut klingt. Ich frage mich jedoch, ob Gong mit Schneeball über Standard Nachteile gibt. Verliere ich etwas, indem ich damit gehe? Gibt es noch andere Analysatoren zu berücksichtigen?

War es hilfreich?

Lösung

Ja, indem Sie einen Stiel wie Snowball verwenden, verlieren Sie Informationen über die ursprüngliche Form Ihres Textes. Manchmal ist dies nützlich, manchmal nicht.

Zum Beispiel wird Snowball "Organisation" in "Organ" einstammeln, sodass eine Suche nach "Organisation" die Ergebnisse mit "Organ" zurückgeben wird, ohne dass eine Bewertung ist.

Unabhängig davon, ob dies Ihnen angemessen ist oder nicht, hängt von Ihren Inhalten und von der Art der von Ihnen unterstützten Abfragen ab (z. B. sind die Suchvorgänge sehr einfach oder sind sehr raffiniert und verwenden Ihre Suche, um die Ergebnisse genau zu filtern). Möglicherweise möchten Sie auch weniger aggressive Stemmers untersuchen, wie z. Kstem.

Andere Tipps

Das Schneeball Analysator erhöht Ihren Rückruf, da er viel aggressiver als Standard -Analysator ist. Also musst du auswerten Ihre Suchergebnisse, um festzustellen, ob Sie für Ihre Daten erhöhen müssen Rückruf oder Präzision.

Ich habe gerade einen Analysator beendet, der eine Lemmatisierung durchführt. Dies ähnelt dem Stamm, außer dass es den Kontext verwendet, um den Typ eines Wortes (Substantiv, Verb usw.) zu bestimmen und diese Informationen zu verwenden, um den Stamm abzuleiten. Es hält auch die ursprüngliche Form des Wortes im Index. Vielleicht meine Bibliothek kann für Sie von Nutzen sein. Es erfordert jedoch Lucene Java, und ich bin mir keine C#/. Net Lemmatizer bewusst.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top