我们公司有数以千计的PDF文档。我们如何使用Lucene,Solr或Nutch创建一个简单的搜索引擎?我们将提供一个基本的Java / JSP网页,人们可以输入单词并执行基本和/或查询,然后向他们显示所有匹配PDF的文档链接。

有帮助吗?

解决方案

Lucene系列中的所有项目都不能原生地处理PDF,但是您可以使用实用程序,并编写有关如何自行编写的实例。

Lucene几乎可以做任何你需要它做的事情,但就你的时间来说,就像Tony上面所说的那样,会有很多开销。成千上万的文件确实不是那么多,所以你可以用更轻的替代品来逃避。

也就是说,我仍然建议看看Solr - 它比Lucene更容易设置,支持备份,复制等,以及一个非常适合您的用例的漂亮的JSON接口: http://wiki.apache.org/solr/SolJSON

其他提示

我和lucene一起运气好,但它不是点击,安装和搜索,它确实需要一些工作。
如果您需要可以下载并安装并在10分钟内搜索的内容,请查看免费的Ominifind Yahoo Edition http ://omnifind.ibm.yahoo.net/ ,它使用Lucene,但打包时已配置好并准备好在安装时运行,这是一种更简单的方法来尝试Lucene。

Nutch启用的Nutch + Lucene + Pdf插件是您的解决方案。 Nutch允许您通过启用pdf插件来解析pdf。

Lucene将允许您为已爬网和已解析的数据编制索引,Nutch具有servlet,可为您提供搜索界面。

我们对内部lans使用相同的内容。

我认为您需要一个系统来管理您的PDF文件。请尝试使用dspace系统。 Dspace是一个数字图书馆,它支持Lucene。 www.dspace.org。

查看电子版。它包括一个工作流程,用于添加新文档,自动索引和缩略图PDF,并具有相当全面的全文搜索功能。它也可以很容易地定制和品牌化。

为什么重新发明轮子。试。

在这个论坛上回答如此广泛的问题将是艰难的。我建议你看一下 Lucene in Action 这本书。以可读的方式介绍索引和搜索的基础知识。

鉴于你的申请,听起来像Nutch和Solr可能没有必要。由于您的所有文件都在本地提供,Nutch可能没有帮助。如果您的查询负载很高,Solr可以帮助您管理一组搜索者,但Lucene具有高度的性能,并且可以以非常可扩展的方式处理大型文档集。

可能耗费大量精力的一个方面是使用PDF。可以索引PDF文档,并且有 Lucene为促进原始提取而做出的贡献来自PDF的文本,但根据文档,结果的质量可能会有所不同。通常,由于格式化说明,PDF文档中关键字的上下文不清楚,并且这使得难以进行邻近搜索或显示匹配的上下文。

您可能会看到的一个很棒的免费搜索技术是IBM Yahoo!免费搜索。我不确定他们是否已经完成了使用Lucene的计划,但它仍然是使用免费搜索技术的东方之一。我相信它可处理多达500K的文档,并且它还支持PDF和其他非文本格式。图形用户界面;易于自定义搜索结果和基本搜索分析。基本同义词库和强大的API,因此如果开箱即用的结果不符合您的喜好,您可以做任何你想做的事情。我们已经向一些客户提出了这个问题,那里的文档数量不到50万,而且他们喜欢它。

如果您有Linux服务器,可以使用 Beagle 对其进行索引,然后只需使用随附的搜索功能。它有一个(实验性)网络搜索界面,它也可以连接到FireFox搜索框。

它会自动为文件编制索引,我怀疑你会发现增强或修复beagle比将自己的搜索界面编写到Lucene更有效。

具有(imho)在Mac上的独特优势,我使用 SearchLight 在较旧的G5上。很好的网络界面聚焦,Mac OS的内置索引服务。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top