Vous cherchez par exemple les piles d'infrastructure / flux de travail / pipelines

https://datascience.stackexchange.com/questions/430

16-10-2019
|

Question

Je suis en train de comprendre comment tous les « grandes données » composants jouent ensemble dans une utilisation réelle monde cas, par exemple Hadoop, monogodb / NoSQL, tempête, kafka, ... Je sais que cela est tout à fait une large gamme d'outils utilisés pour différents types, mais je voudrais en apprendre plus au sujet de leur interaction dans les applications, par exemple penser l'apprentissage de la machine pour une application, webapp, boutique en ligne.

je vistors / session, les données sur les transactions etc et magasin qui; mais si je veux faire des recommandations à la volée, je ne peux pas courir carte lente / réduire des emplois pour que, sur une grande base de données de journaux que j'ai. Où puis-je en savoir plus sur les aspects de l'infrastructure? Je pense que je peux utiliser la plupart des outils eux-mêmes, mais de les brancher dans l'autre semble être un art propre.

Y a-t-il des exemples / cas d'utilisation publics etc disponibles? Je comprends que les pipelines individuels dépendent fortement du cas d'utilisation et l'utilisateur, mais des exemples seulement sera probablement très utile pour moi.

La solution

Pour comprendre la variété de l'apprentissage de la machine façons peut être intégré dans des applications de production, je pense qu'il est utile d'examiner les projets open source et papiers / messages de blog des entreprises décrivant leur infrastructure.

Le thème commun que ces systèmes ont est la séparation de la formation du modèle de l'application du modèle. Dans les systèmes de production, les besoins d'application de modèle pour être rapide, de l'ordre de 100s de ms, mais il y a plus de liberté dans la fréquence des paramètres de modèle ajusté (ou équivalent) doivent être mis à jour.

Les gens utilisent une large gamme de solutions pour la formation et le déploiement modèle:

Construire un modèle, puis exporter et déployer avec PMML
- AirBnB décrit leur modèle de formation dans R / Python et le déploiement de PMML modèles via OpenScoring.
- Motif est projet lié à Cascading qui peuvent consommer PMML et déployer des modèles prédictifs.
Construire un modèle en valeurs MapReduce et l'accès à un système personnalisé
- Conjecture est un projet open source Etsy qui permet la formation de modèle avec ébouillantage, une enveloppe scala plus facile à utiliser autour MapReduce, et leur déploiement via Php.
- Kiji est un projet open source de WibiData qui permet de marquer un modèle en temps réel (application) ainsi que functioanlity pour la persistance des données utilisateur et des modèles de formation sur ces données via ébouillantage.
Utilisez un système en ligne qui permet de mettre à jour en permanence les paramètres du modèle.
- Google a publié un article sur un filtrage collaboratif en ligne ils ont mis en œuvre pour faire face aux recommandations contenues dans Google Nouvelles .

Autres conseils

L'une des plus détaillées et des explications claires de la mise en place d'un pipeline d'analyse complexe des gens plus Twitch .
Ils donnent des motivations détaillées de chacun des choix d'architecture pour la collecte, le transport, la coordination, le traitement, le stockage et l'interrogation de leurs données.
lecture convaincante! Trouvez et ici .

et Airbnb Etsy à la fois des informations détaillées récemment mis en ligne sur leurs flux de travail.

Chapitre 1 de la science des données pratique avec R ( http://www.manning.com/zumel/) a une grande rupture du processus de la science des données, y compris les rôles de l'équipe et la façon dont ils se rapportent à des tâches spécifiques. Le livre suit les modèles présentés dans le chapitre en faisant référence qui met en scène / personnel telle ou telle tâche particulière sera effectuée par.

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange