我们如何使用Lucene，Solr或Nutch创建一个简单的搜索引擎？

https://stackoverflow.com/questions/223536

03-07-2019
|

题

我们公司有数以千计的PDF文档。我们如何使用Lucene，Solr或Nutch创建一个简单的搜索引擎？我们将提供一个基本的Java / JSP网页，人们可以输入单词并执行基本和/或查询，然后向他们显示所有匹配PDF的文档链接。

解决方案

Lucene系列中的所有项目都不能原生地处理PDF，但是您可以使用实用程序，并编写有关如何自行编写的实例。

Lucene几乎可以做任何你需要它做的事情，但就你的时间来说，就像Tony上面所说的那样，会有很多开销。成千上万的文件确实不是那么多，所以你可以用更轻的替代品来逃避。

也就是说，我仍然建议看看Solr - 它比Lucene更容易设置，支持备份，复制等，以及一个非常适合您的用例的漂亮的JSON接口： http://wiki.apache.org/solr/SolJSON

其他提示

我和lucene一起运气好，但它不是点击，安装和搜索，它确实需要一些工作。
如果您需要可以下载并安装并在10分钟内搜索的内容，请查看免费的Ominifind Yahoo Edition http ：//omnifind.ibm.yahoo.net/ ，它使用Lucene，但打包时已配置好并准备好在安装时运行，这是一种更简单的方法来尝试Lucene。

Nutch启用的Nutch + Lucene + Pdf插件是您的解决方案。 Nutch允许您通过启用pdf插件来解析pdf。

Lucene将允许您为已爬网和已解析的数据编制索引，Nutch具有servlet，可为您提供搜索界面。

我们对内部lans使用相同的内容。

Google Search Appliance http://www.google.com/enterprise/gsa/

我认为您需要一个系统来管理您的PDF文件。请尝试使用dspace系统。 Dspace是一个数字图书馆，它支持Lucene。 www.dspace.org。

查看电子版。它包括一个工作流程，用于添加新文档，自动索引和缩略图PDF，并具有相当全面的全文搜索功能。它也可以很容易地定制和品牌化。

为什么重新发明轮子。试。

在这个论坛上回答如此广泛的问题将是艰难的。我建议你看一下 Lucene in Action ，这本书。以可读的方式介绍索引和搜索的基础知识。

鉴于你的申请，听起来像Nutch和Solr可能没有必要。由于您的所有文件都在本地提供，Nutch可能没有帮助。如果您的查询负载很高，Solr可以帮助您管理一组搜索者，但Lucene具有高度的性能，并且可以以非常可扩展的方式处理大型文档集。

可能耗费大量精力的一个方面是使用PDF。可以索引PDF文档，并且有 Lucene为促进原始提取而做出的贡献来自PDF的文本，但根据文档，结果的质量可能会有所不同。通常，由于格式化说明，PDF文档中关键字的上下文不清楚，并且这使得难以进行邻近搜索或显示匹配的上下文。

您可能会看到的一个很棒的免费搜索技术是IBM Yahoo!免费搜索。我不确定他们是否已经完成了使用Lucene的计划，但它仍然是使用免费搜索技术的东方之一。我相信它可处理多达500K的文档，并且它还支持PDF和其他非文本格式。图形用户界面;易于自定义搜索结果和基本搜索分析。基本同义词库和强大的API，因此如果开箱即用的结果不符合您的喜好，您可以做任何你想做的事情。我们已经向一些客户提出了这个问题，那里的文档数量不到50万，而且他们喜欢它。

如果您有Linux服务器，可以使用 Beagle 对其进行索引，然后只需使用随附的搜索功能。它有一个（实验性）网络搜索界面，它也可以连接到FireFox搜索框。

它会自动为文件编制索引，我怀疑你会发现增强或修复beagle比将自己的搜索界面编写到Lucene更有效。

具有（imho）在Mac上的独特优势，我使用 SearchLight 在较旧的G5上。很好的网络界面聚焦，Mac OS的内置索引服务。

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow