有关与Lucene或Solr一起使用的蜘蛛工具的建议吗？ [关闭]

https://stackoverflow.com/questions/282654

08-07-2019
|

题

什么是针对HTML和XML文档（本地或基于Web）使用的良好爬虫（蜘蛛），并且在Lucene / Solr解决方案空间中运行良好？可能是基于Java的，但不一定是。

解决方案

在我看来，这是一个非常重要的漏洞，它阻碍了Solr的广泛采用。新的DataImportHandler是导入结构化数据的第一步，但是Solr没有一个好的文档摄取管道。 Nutch确实有效，但Nutch履带和Solr之间的整合有些笨拙我已经尝试过每一个我都能找到的开源爬虫，而且没有一个与Solr集成开箱即用。
密切关注OpenPipeline和Apache Tika。

其他提示

我尝试过nutch，但很难与Solr集成。我会看看Heritrix。它有一个广泛的插件系统，可以很容易地与Solr集成，并且它在爬行时要快得多。它广泛使用线程来加速这个过程。

我建议您查看 Nutch 以获得灵感：

Nutch是开源网络搜索软件。它建立在Lucene Java之上，添加了特定于Web的内容，例如爬虫，链接图数据库，HTML和其他文档格式的解析器等。

同时检查Apache机器人[ http://incubator.apache.org/droids/] - 这不希望是一个简单的蜘蛛/爬虫/工人框架。

这是新的，现在还不容易使用（需要一些推文来运行），但是要注意这一点是件好事。

Nutch可能是你最接近的比赛，但它并不太灵活。

如果你需要更多东西，你将不得不破解你自己的爬虫。它并不像听起来那么糟糕，每种语言都有Web库，所以你只需要将一些任务队列管理器与HTTP下载器和HTML解析器连接起来，这并不是那么多工作。你最有可能只使用一个盒子，因为爬行主要是带宽关注，而不是CPU密集型。

http://arachnode.net

C＃，但生成Lucene（Java和C＃）耗材索引文件。

有没人试过Xapian？它比solr快得多，用c ++编写。

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow