Hadoop创造一种索引,并添加()它向分布SOLR...这可能吗?我应该使用Nutch?..Cloudera?

StackOverflow https://stackoverflow.com/questions/4235892

我可以使用map/reduce框架,以创造一种索引,并以某种方式将它添加到分布式Solr?

我有一个突发的信息(日志文件和文件),将会在互联网上,并储存在我的数据中心(或亚马逊).它需要进行分析,编制索引,最后通过可搜索的我们的复制Solr安装。

这里是我的拟议结构:

  • 使用map/reduce框架(Cloudera、中挖掘价值Nutch,甚至 DryadLinq)编写这些文件的索引
  • 索引这些文件成Lucene.NET /分类:设(java)兼容的文件的格式
  • 部署该文件以所有我Solr实例
  • 激活,复制索引

如果这上面是可能的,我需要选择一个map/reduce框架。由于Cloudera是供应商的支持,并有一吨的贴不包括在使用以下几种方安装,我认为这可能是值得一看。

一旦我选择的MatpReduce的框架,我需要标记的文件(PDF,DOC,OLE,etc...),索引他们复制索引到我Solr实例,并以某种方式"激活"他们,使他们可搜索的在运行的实例。我相信,以及演示的方法与技巧。这是更好的,提交文件通过其他口给Solr。

我带来的。净入照片是因为我们是主要的一个。网上商店。唯一的Unix/Java我们将必须是Solr和有一个前端,利用其他接口通过Solrnet.

基于你的经验、如何 这个结构看看吗?你看到 任何问题/问题?有什么建议可以 你得到?

我应该怎么 做失去分组搜索?在阅读Nutch文件,我相信它说,它没有做多面性,但我可能没有足够的背景在这个软件来了解什么说的。

有帮助吗?

解决方案

一般来说,你什么是你所描述的几乎完全如何Nutch工作。Nutch是爬行,索引编制、索引合并和查询的回应的工具包,这是基于Hadoop的核心。

你不应该混合Cloudera、中挖掘价值Nutch和分类:设.你会最有可能最终使用所有的他们:

  • Nutch 是的名称编制索引/回答(如Solr)机械。
  • Nutch本身的运行使用 Hadoop 集群(其中大量使用它自己的分布式文件系统,HDFS)
  • Nutch使用 分类:设 格式的索引
  • Nutch包括查询回答前端,这可以使用,或者可以附加一个 Solr 前端和使用分类:设的索引。
  • 最后, Cloudera技术人员 (或CDH)仅仅是一个技术人员与几十个增补程序应用于它,使它更加稳定和移植的一些有用的特色,从发展的分支机构。是啊,你会很可能要使用它,除非你有一个原因不要(例如,如果你想要一个血缘Hadoop0.22干线).

一般来说,如果你只是寻找到现成的爬/搜索引擎的解决方案,然后Nutch是很长的路要走。Nutch已经包括了很多插件分析和索引的各种疯狂类型的文档,包括MS Word文档,Pdf文件,等等,等等。

我个人看不到多点使用。净技术,在这里,但是如果你觉得舒服,你可以做前结束。网。然而,工作与Unix技术可能会觉得很尴尬窗户为中心团队,因此,如果我管理的这样一个项目,我会考虑的替代品,特别是如果您任务的爬行和索引是有限的(即你不想爬,整个互联网对于某些目的)。

其他提示

你有没有看着Lucandra https://github.com/tjake/Lucandra Cassandra后结束。/Solr你可以用Hadoop来填充的存储卡桑德拉,与指数的数据。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top