寻找例如基础架构堆栈/工作流/管道
-
16-10-2019 - |
题
我试图了解所有“大数据”组件如何在现实世界中使用,例如Hadoop,Monogodb/nosql,Storm,Kafka,...我知道这是相当多的工具不同的类型,但我想了解更多有关它们在应用程序中的互动,例如应用程序,WebApp,在线商店的机器学习。
我有Vistors/Session,交易数据等,并将其存储;但是,如果我想即时提出建议,我将无法在我拥有的一些大量日志数据库中运行缓慢的地图/减少作业。我在哪里可以了解有关基础设施方面的更多信息?我认为我可以自己使用大多数工具,但是将它们插入彼此似乎是一种艺术。
是否有任何公共示例/用例等?我知道单个管道强烈取决于用例和用户,但是只有示例对我来说可能非常有用。
解决方案
为了了解可以将机器学习整合到生产应用程序中的各种方式,我认为查看来自描述其基础架构的公司的开源项目和论文/博客文章很有用。
这些系统具有的共同主题是将模型培训与模型应用分开。在生产系统中,模型应用程序需要快速按100秒的MS顺序进行快速,但是需要更新拟合模型参数(或等效)的自由度更大。
人们使用广泛的解决方案进行模型培训和部署:
构建模型,然后导出并用PMML部署
Airbnb描述了他们的模型培训 在r/python和通过打开的PMML模型部署中。
在MapReduce中构建模型和自定义系统中的访问值
猜想是Etsy的开源项目 这允许使用模型培训 烫, ,更易于在MapReduce周围使用Scala包装器,并通过PHP部署。
Kiji是Wibidata的开源项目 这允许实时模型评分(应用程序)以及功能固定,以通过该数据持续使用该数据的用户数据和培训模型 烫。
使用允许连续更新模型参数的在线系统。
- Google发表了一篇关于在线协作过滤的好论文 他们实施了用于处理Google新闻中的建议。