В поисках, например, инфраструктурных стеков/рабочих процессов/трубопроводов

https://datascience.stackexchange.com/questions/430

16-10-2019
|

Вопрос

Я пытаюсь понять, как все компоненты «большие данные» играют вместе в реальном мире использования, например, Hadoop, Monogodb/nosql, Storm, Kafka, ... Я знаю, что это довольно широкий спектр инструментов, используемых для Различные типы, но я хотел бы узнать больше об их взаимодействии в приложениях, например, Mancure Machine Learning для приложения, WebApp, интернет -магазина.

У меня есть Vistors/Session, данные транзакции и т. Д., И хранить это; Но если я хочу дать рекомендации на лету, я не могу запустить медленную карту/уменьшить задания для этого в какой -то большой базе данных журналов, которые у меня есть. Где я могу узнать больше об аспектах инфраструктуры? Я думаю, что я могу использовать большинство инструментов самостоятельно, но подключение их друг к другу кажется собственным искусством.

Существуют ли общедоступные примеры/варианты использования и т. Д.? Я понимаю, что отдельные трубопроводы сильно зависят от случая использования и пользователя, но только примеры, вероятно, будут очень полезны для меня.

Решение

Чтобы понять разнообразие способов, которыми машинное обучение может быть интегрировано в производственные приложения, я думаю, что полезно рассмотреть проекты с открытым исходным кодом и статьи/сообщения в блоге от компаний, описывающих свою инфраструктуру.

Общей темой, которую имеют эти системы, является отделение модельной подготовки от приложения модели. В производственных системах приложение модели должно быть быстро, по порядку 100 -х годов МС, но необходимо обновить больше свободы в том, как часто подходящие параметры модели (или эквивалент).

Люди используют широкий спектр решений для обучения и развертывания моделей:

Создайте модель, затем экспортируйте и разверните ее с помощью PMML
- Airbnb описывает их модельное обучение в R/Python и развертывание моделей PMML через OpenScoring.
- Шаблон Проект связан с Каскад Это может потреблять PMML и развернуть прогнозные модели.
Создайте модель в значениях MapReduce и доступа в пользовательской системе
- Гипотеза - это проект с открытым исходным кодом от Etsy Это позволяет проводить модельную подготовку с Обжигание, более легкий в использовании обертки Scala вокруг MapReduce и развертывание через PHP.
- Киджи является проектом с открытым исходным кодом от Wibidata Это позволяет получить оценку модели в реальном времени (приложение), а также функционирование для постоянных пользовательских данных и обучающих моделей по этим данным через Обжигание.
Используйте онлайн -систему, которая позволяет постоянно обновлять параметры модели.
- Google выпустил отличную статью о онлайн -совместной фильтрации фильтрации Они реализованы, чтобы справиться с рекомендациями в Google News.

Другие советы

Одним из наиболее подробных и четких объяснений создания сложного аналитического трубопровода является от людей. Подергивание.
Они дают подробные мотивы каждого из вариантов архитектуры для сбора, транспорта, координации, обработки, хранения и запросов их данных.
Убедительное чтение! Найди это здесь а также здесь.

Airbnb а также Etsy Оба недавно опубликовали подробную информацию о своих рабочих процессах.

Глава 1 практической науки данных с R (http://www.manning.com/zumel/) имеет большую разбивку процесса науки о данных, в том числе командные роли и то, как они относятся к конкретным задачам. Книга последовала за моделями, изложенными в главе, ссылаясь, какие этапы/персонал этой или какой конкретной задачи будут выполнены.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с datascience.stackexchange