我正在寻找一个开源搜索索引库。它将用于嵌入式 Web 应用程序,因此它应该具有较小的代码大小。最好用 C、C++ 或 PHP 编写,不需要安装任何数据库来存储索引。索引应该存储在文件中(例如 xml、txt)。我尝试查看一些著名的搜索库,例如 xapian 和 clucene,它们很好,但对于嵌入式系统来说代码量相对较大。

它将在 Linux 平台上运行,并将用于索引 HTML 文件。

关于什么是一个好的搜索库/API 有什么想法吗?

谢谢。

有帮助吗?

解决方案

其他提示

天啊。有几个。按照模糊程度递减的顺序...

我确信还有更多的东西,但这些是我脑子里想不到的。祝你好运 :)

第一的:你必须在某处存储索引。因此,除非您只需要内存索引,否则将需要数据文件。

要索引通用项目,我可以推荐您 sqlite: http://www.sqlite.org/. 。当我有大量数据并且需要使用多个索引处理它时,我什至在仅内存模式下使用它。

这取决于您的要求。Lucene (Java) 的完整发行版最多有 3MB JAR 文件,但实际上可以缩减到 1MB 以下。CLucene 在实践中可能要小得多。需要降到多低?...

斯威什-E 是用 C 编写的,可能会做你想做的事。不需要数据库,使用自己的二进制索引文件格式。

我也用过 ht://挖掘 但看起来该软件已经维护了很长时间了。

两者都可以在 Linux 上编译并索引 HTML 。

第三个选项是 西诺 被使用过 澳大利亚LII. 。请联系那里的团队以确保您获得最新版本。在 Linux 上编译应该不会有太多麻烦。它并不是真正为嵌入式系统设计的(SINO 代表 Size Is No Object),但我上次看到它有一个不错的 API,而且相对较小(所以,它不是为嵌入式系统设计的,但可能也能工作)。针对 HTML。索引速度相当快。我认为值得一看。(披露:很久以前在那里工作过)

最后,我们使用 索尔 这是基于 卢塞恩. 。Solr 使用基于将 XML 文档发布到服务器的简单 API。无论您使用哪种语言,界面都非常简单。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top