寻找例如基础架构堆栈/工作流/管道

题

我试图了解所有“大数据”组件如何在现实世界中使用，例如Hadoop，Monogodb/nosql，Storm，Kafka，...我知道这是相当多的工具不同的类型，但我想了解更多有关它们在应用程序中的互动，例如应用程序，WebApp，在线商店的机器学习。

我有Vistors/Session，交易数据等，并将其存储；但是，如果我想即时提出建议，我将无法在我拥有的一些大量日志数据库中运行缓慢的地图/减少作业。我在哪里可以了解有关基础设施方面的更多信息？我认为我可以自己使用大多数工具，但是将它们插入彼此似乎是一种艺术。

是否有任何公共示例/用例等？我知道单个管道强烈取决于用例和用户，但是只有示例对我来说可能非常有用。

解决方案

为了了解可以将机器学习整合到生产应用程序中的各种方式，我认为查看来自描述其基础架构的公司的开源项目和论文/博客文章很有用。

这些系统具有的共同主题是将模型培训与模型应用分开。在生产系统中，模型应用程序需要快速按100秒的MS顺序进行快速，但是需要更新拟合模型参数（或等效）的自由度更大。

人们使用广泛的解决方案进行模型培训和部署：

构建模型，然后导出并用PMML部署
- Airbnb描述了他们的模型培训在r/python和通过打开的PMML模型部署中。
- 图案与项目有关级联这可以消耗PMML并部署预测模型。
在MapReduce中构建模型和自定义系统中的访问值
- 猜想是Etsy的开源项目这允许使用模型培训烫, ，更易于在MapReduce周围使用Scala包装器，并通过PHP部署。
- Kiji是Wibidata的开源项目这允许实时模型评分（应用程序）以及功能固定，以通过该数据持续使用该数据的用户数据和培训模型烫。
使用允许连续更新模型参数的在线系统。
- Google发表了一篇关于在线协作过滤的好论文他们实施了用于处理Google新闻中的建议。

其他提示

建立复杂分析管道的最详细，最清晰的解释之一是来自AT的人们抽搐.
他们为收集，运输，协调，处理，存储和查询其数据的每个体系结构选择提供了详细的动机。
引人入胜的阅读！找到它这里和这里.

Airbnb 和 Etsy 两者最近都发布了有关其工作流程的详细信息。

与R的实用数据科学第1章（http://www.manning.com/zumel/）对数据科学过程的细分很大，包括团队角色及其与特定任务的关系。该书遵循本章中规定的模型，引用了哪个阶段/人员将执行的阶段/人员。

许可以下： CC-BY-SA 和归因