В поисках, например, инфраструктурных стеков/рабочих процессов/трубопроводов

datascience.stackexchange https://datascience.stackexchange.com/questions/430

Вопрос

Я пытаюсь понять, как все компоненты «большие данные» играют вместе в реальном мире использования, например, Hadoop, Monogodb/nosql, Storm, Kafka, ... Я знаю, что это довольно широкий спектр инструментов, используемых для Различные типы, но я хотел бы узнать больше об их взаимодействии в приложениях, например, Mancure Machine Learning для приложения, WebApp, интернет -магазина.

У меня есть Vistors/Session, данные транзакции и т. Д., И хранить это; Но если я хочу дать рекомендации на лету, я не могу запустить медленную карту/уменьшить задания для этого в какой -то большой базе данных журналов, которые у меня есть. Где я могу узнать больше об аспектах инфраструктуры? Я думаю, что я могу использовать большинство инструментов самостоятельно, но подключение их друг к другу кажется собственным искусством.

Существуют ли общедоступные примеры/варианты использования и т. Д.? Я понимаю, что отдельные трубопроводы сильно зависят от случая использования и пользователя, но только примеры, вероятно, будут очень полезны для меня.

Это было полезно?

Решение

Чтобы понять разнообразие способов, которыми машинное обучение может быть интегрировано в производственные приложения, я думаю, что полезно рассмотреть проекты с открытым исходным кодом и статьи/сообщения в блоге от компаний, описывающих свою инфраструктуру.

Общей темой, которую имеют эти системы, является отделение модельной подготовки от приложения модели. В производственных системах приложение модели должно быть быстро, по порядку 100 -х годов МС, но необходимо обновить больше свободы в том, как часто подходящие параметры модели (или эквивалент).

Люди используют широкий спектр решений для обучения и развертывания моделей:

Другие советы

Одним из наиболее подробных и четких объяснений создания сложного аналитического трубопровода является от людей. Подергивание.
Они дают подробные мотивы каждого из вариантов архитектуры для сбора, транспорта, координации, обработки, хранения и запросов их данных.
Убедительное чтение! Найди это здесь а также здесь.

Airbnb а также Etsy Оба недавно опубликовали подробную информацию о своих рабочих процессах.

Глава 1 практической науки данных с R (http://www.manning.com/zumel/) имеет большую разбивку процесса науки о данных, в том числе командные роли и то, как они относятся к конкретным задачам. Книга последовала за моделями, изложенными в главе, ссылаясь, какие этапы/персонал этой или какой конкретной задачи будут выполнены.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с datascience.stackexchange
scroll top