RoR でのアラビア語全文検索
-
19-09-2019 - |
質問
RoR アプリに全文検索機能を追加しようとしていますが、アラビア語に関してはいくつかの問題に直面しています。私の知る限り、アラビア語のステミング、形態論、その他の高度な全文検索をサポートする検索エンジンはそれほど多くありません。私が見つけたのは、AraMorph トークナイザーを備えた Lucene だけでした。
act_as_solr プラグイン (solr は lucene に基づいており、このプラグインはそれを Rails と統合します) は放棄されたようで、役立つドキュメントが見つかりません。
sphinx、xapian、ferret、acts_as_searchable を調べましたが、私の知る限り、高度なアラビア語検索機能を提供するものはありませんでした。
助けていただければ幸いです
== 更新
スフィンクスを使用するという提案があり、以前のプロジェクトで実際に使用しましたが、問題なく動作しました。ただし、高度な検索機能は提供されません。
たとえば、次のような言葉です。كتاب (本)、مكتبة (図書館)、および كاتب (作家) はすべて同じ語幹 كتب から派生しています。「writer」を検索して、同じ語幹から派生したすべての単語の結果を取得する機能が欲しいです。
また、検索では一般的なアラビア語のディクテーション スタイルを考慮してほしいと考えています。「ハムザ」(همزة)を使う人もいれば、使わない人もいます。「タア マルブータ」(التاء المربوطة)という文字で単語を書く人もいますし、「ハア」(الهاء)という文字を使う人もいます。優れたアラビア語検索エンジンは、このような微妙な違いを認識して、それらを検索する必要があります。
Sphinx を使用すると、検索したものだけが得られます。そのような問題にアラビア語で対応できると私が見つけた唯一のエンジンは、AraMorph トークナイザーを備えた Lucene でした。ただし、acts_as_solr (rails 用の lucene プラグイン) は廃止されました。そこで私の質問は次のとおりです。検索エンジン用のそのようなトークナイザーは他にありますか?
カンダダボッグが黒点について言及しました。試してから返信します
解決
あなたが考えるスフィンクスのオプションを拡張することによって、これを試してみてください。
ます。http:// WWWこれを読んでください。 expressionlab.com/2008/11/19/thinking-sphinx-in-arabic-unicodeする