我试图了解所有“大数据”组件如何在现实世界中使用,例如Hadoop,Monogodb/nosql,Storm,Kafka,...我知道这是相当多的工具不同的类型,但我想了解更多有关它们在应用程序中的互动,例如应用程序,WebApp,在线商店的机器学习。

我有Vistors/Session,交易数据等,并将其存储;但是,如果我想即时提出建议,我将无法在我拥有的一些大量日志数据库中运行缓慢的地图/减少作业。我在哪里可以了解有关基础设施方面的更多信息?我认为我可以自己使用大多数工具,但是将它们插入彼此似乎是一种艺术。

是否有任何公共示例/用例等?我知道单个管道强烈取决于用例和用户,但是只有示例对我来说可能非常有用。

有帮助吗?

解决方案

为了了解可以将机器学习整合到生产应用程序中的各种方式,我认为查看来自描述其基础架构的公司的开源项目和论文/博客文章很有用。

这些系统具有的共同主题是将模型培训与模型应用分开。在生产系统中,模型应用程序需要快速按100秒的MS顺序进行快速,但是需要更新拟合模型参数(或等效)的自由度更大。

人们使用广泛的解决方案进行模型培训和部署:

其他提示

建立复杂分析管道的最详细,最清晰的解释之一是来自AT的人们 抽搐.
他们为收集,运输,协调,处理,存储和查询其数据的每个体系结构选择提供了详细的动机。
引人入胜的阅读!找到它 这里这里.

AirbnbEtsy 两者最近都发布了有关其工作流程的详细信息。

与R的实用数据科学第1章(http://www.manning.com/zumel/)对数据科学过程的细分很大,包括团队角色及其与特定任务的关系。该书遵循本章中规定的模型,引用了哪个阶段/人员将执行的阶段/人员。

许可以下: CC-BY-SA归因
scroll top