什么是针对HTML和XML文档(本地或基于Web)使用的良好爬虫(蜘蛛),并且在Lucene / Solr解决方案空间中运行良好?可能是基于Java的,但不一定是。

有帮助吗?

解决方案

在我看来,这是一个非常重要的漏洞,它阻碍了Solr的广泛采用。新的DataImportHandler是导入结构化数据的第一步,但是Solr没有一个好的文档摄取管道。 Nutch确实有效,但Nutch履带和Solr之间的整合有些笨拙 我已经尝试过每一个我都能找到的开源爬虫,而且没有一个与Solr集成开箱即用。
密切关注OpenPipeline和Apache Tika。

其他提示

我尝试过nutch,但很难与Solr集成。我会看看Heritrix。它有一个广泛的插件系统,可以很容易地与Solr集成,并且它在爬行时要快得多。它广泛使用线程来加速这个过程。

我建议您查看 Nutch 以获得灵感:

  

Nutch是开源网络搜索软件。它建立在Lucene Java之上,添加了特定于Web的内容,例如爬虫,链接图数据库,HTML和其他文档格式的解析器等。

同时检查Apache机器人[ http://incubator.apache.org/droids/] - 这不希望是一个简单的蜘蛛/爬虫/工人框架。

这是新的,现在还不容易使用(需要一些推文来运行),但是要注意这一点是件好事。

Nutch可能是你最接近的比赛,但它并不太灵活。

如果你需要更多东西,你将不得不破解你自己的爬虫。它并不像听起来那么糟糕,每种语言都有Web库,所以你只需要将一些任务队列管理器与HTTP下载器和HTML解析器连接起来,这并不是那么多工作。你最有可能只使用一个盒子,因为爬行主要是带宽关注,而不是CPU密集型。

http://arachnode.net

C#,但生成Lucene(Java和C#)耗材索引文件。

有没人试过Xapian?它比solr快得多,用c ++编写。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top