كيف يمكنني استخدام StandardAnalyzer مع Termquery؟

https://stackoverflow.com/questions/1390088

21-09-2019
|

سؤال

أحاول إنتاج شيء مشابه لما يفعله QueryParser في Lucene ، ولكن بدون المحلل ، أي تشغيل سلسلة من خلال StandardAnalyzer ، قم برمز هذا واستخدام Termquery: S في BooleAnquery لإنتاج استعلام. مشكلتي هي أنني أحصل على رمز فقط: S من StandardAnalyzer ، وليس المصطلح: s. يمكنني تحويل رمز إلى مصطلح من خلال استخراج السلسلة منه فقط برمش. ما هي الطريقة الصحيحة لإنتاج مصطلح مع StandardAnalyzer؟

أنا أستخدم بيلوسين ، لكنني أعتقد أن الإجابة هي نفسها بالنسبة إلى Java وما إلى ذلك. هنا هو الرمز الذي توصلت إليه:

from lucene import *
def term_match(self, phrase):
    query = BooleanQuery()
    sa = StandardAnalyzer()               
    for token in sa.tokenStream("contents", StringReader(phrase)):
        term_query = TermQuery(Term("contents", token.term())
        query.add(term_query), BooleanClause.Occur.SHOULD)

المحلول

الطريقة الثابتة للحصول على النص الرمزي مع token.termText() - أن واجهة برمجة التطبيقات كانت موجودة إلى الأبد.

ونعم ، ستحتاج إلى تحديد اسم حقل لكلا Analyzer و ال Term; ؛ أعتقد أن هذا يعتبر طبيعيًا. 8-)

نصائح أخرى

لقد واجهت نفس المشكلة ، واستخدام Lucene 2.9 API و Java ، يبدو أن قصاصة الكود الخاصة بي مثل هذا:

final TokenStream tokenStream = new StandardAnalyzer(Version.LUCENE_29)
    .tokenStream( fieldName , new StringReader( value ) );
final List< String > result = new ArrayList< String >();
try {
while ( tokenStream.incrementToken() ) {
  final TermAttribute term = ( TermAttribute ) tokenStream.getAttribute( TermAttribute.class );
  result.add( term.term() );
}

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow