我正在尝试向我的 RoR 应用程序添加全文搜索功能,但在阿拉伯语方面遇到一些问题。AFAIK,支持阿拉伯语词干、词法和其他高级全文搜索的搜索引擎并不多。我唯一发现的是带有 AraMorph 分词器的 Lucene。

acts_as_solr 插件(solr 基于 lucene,这个插件将其与 Rails 集成)似乎被放弃了,我找不到任何有用的文档。

我研究过 sphinx、xapian、ferret 和acts_as_searchable,但据我所知,它们都没有提供高级阿拉伯语搜索功能。

任何帮助将非常感激

==更新
我收到了使用 sphinx 的建议,并且我确实在早期的项目中使用了它,而且效果很好。但是,它不提供任何高级搜索功能。
例如:كтаб(书)、ككك(图书馆)和ككك(作家)都源自同一个词干ككك。我希望能够搜索“writer”并获得源自同一词干的所有单词的结果。
另外,我希望搜索考虑到常见的阿拉伯语听写风格。有些人使用“hamza”(هмٲÉ),有些人则不使用。其他人用字母“taa marboota”(??????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????一个好的阿拉伯语搜索引擎应该意识到这些细微的差异并寻找它们。

使用 sphinx,你只能得到你搜索的内容,而我发现的唯一能用阿拉伯语处理此类问题的引擎是 Lucene 和 AraMorph 分词器。然而,acts_as_solr(rails的lucene插件)被放弃了。所以我的问题是:对于任何搜索引擎来说,还有其他这样的标记器吗?
KandadaBoggu 提到了太阳黑子,我会尝试一下,然后回复

有帮助吗?

解决方案

您应该通过扩展思维狮身人面像选择尝试这种

阅读本:的http:// WWW。 expressionlab.com/2008/11/19/thinking-sphinx-in-arabic-unicode

其他提示

供 Solr 使用 太阳黑子太阳黑子轨道.

供狮身人面像使用 思考狮身人面像

这两款宝石都非常出色,并且拥有庞大的安装基础。我在几个项目中使用过 ThinkingSphinx,我强烈推荐它。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top