Hadoop创造一种索引，并添加()它向分布SOLR...这可能吗？我应该使用Nutch?..Cloudera?

题

我可以使用map/reduce框架，以创造一种索引，并以某种方式将它添加到分布式Solr?

我有一个突发的信息(日志文件和文件)，将会在互联网上，并储存在我的数据中心(或亚马逊).它需要进行分析，编制索引，最后通过可搜索的我们的复制Solr安装。

这里是我的拟议结构：

如果这上面是可能的，我需要选择一个map/reduce框架。由于Cloudera是供应商的支持，并有一吨的贴不包括在使用以下几种方安装，我认为这可能是值得一看。

一旦我选择的MatpReduce的框架，我需要标记的文件(PDF，DOC,OLE,etc...),索引他们复制索引到我Solr实例，并以某种方式"激活"他们，使他们可搜索的在运行的实例。我相信，以及演示的方法与技巧。这是更好的，提交文件通过其他口给Solr。

我带来的。净入照片是因为我们是主要的一个。网上商店。唯一的Unix/Java我们将必须是Solr和有一个前端，利用其他接口通过Solrnet.

基于你的经验、如何这个结构看看吗？你看到任何问题/问题？有什么建议可以你得到?

我应该怎么不做失去分组搜索？在阅读Nutch文件，我相信它说，它没有做多面性，但我可能没有足够的背景在这个软件来了解什么说的。

解决方案

一般来说，你什么是你所描述的几乎完全如何Nutch工作。Nutch是爬行，索引编制、索引合并和查询的回应的工具包，这是基于Hadoop的核心。

你不应该混合Cloudera、中挖掘价值Nutch和分类：设.你会最有可能最终使用所有的他们：

Nutch 是的名称编制索引/回答(如Solr)机械。
Nutch本身的运行使用 Hadoop 集群(其中大量使用它自己的分布式文件系统，HDFS)
Nutch使用 分类：设 格式的索引
Nutch包括查询回答前端，这可以使用，或者可以附加一个 Solr 前端和使用分类：设的索引。
最后， Cloudera技术人员 (或CDH)仅仅是一个技术人员与几十个增补程序应用于它，使它更加稳定和移植的一些有用的特色，从发展的分支机构。是啊，你会很可能要使用它，除非你有一个原因不要(例如，如果你想要一个血缘Hadoop0.22干线).

一般来说，如果你只是寻找到现成的爬/搜索引擎的解决方案，然后Nutch是很长的路要走。Nutch已经包括了很多插件分析和索引的各种疯狂类型的文档，包括MS Word文档，Pdf文件，等等，等等。

我个人看不到多点使用。净技术，在这里，但是如果你觉得舒服，你可以做前结束。网。然而，工作与Unix技术可能会觉得很尴尬窗户为中心团队，因此，如果我管理的这样一个项目，我会考虑的替代品，特别是如果您任务的爬行和索引是有限的(即你不想爬，整个互联网对于某些目的)。

其他提示

你有没有看着Lucandra https://github.com/tjake/Lucandra Cassandra后结束。/Solr你可以用Hadoop来填充的存储卡桑德拉，与指数的数据。

许可以下： CC-BY-SA 和归因