Question

Je suis en train de comprendre comment tous les « grandes données » composants jouent ensemble dans une utilisation réelle monde cas, par exemple Hadoop, monogodb / NoSQL, tempête, kafka, ... Je sais que cela est tout à fait une large gamme d'outils utilisés pour différents types, mais je voudrais en apprendre plus au sujet de leur interaction dans les applications, par exemple penser l'apprentissage de la machine pour une application, webapp, boutique en ligne.

je vistors / session, les données sur les transactions etc et magasin qui; mais si je veux faire des recommandations à la volée, je ne peux pas courir carte lente / réduire des emplois pour que, sur une grande base de données de journaux que j'ai. Où puis-je en savoir plus sur les aspects de l'infrastructure? Je pense que je peux utiliser la plupart des outils eux-mêmes, mais de les brancher dans l'autre semble être un art propre.

Y a-t-il des exemples / cas d'utilisation publics etc disponibles? Je comprends que les pipelines individuels dépendent fortement du cas d'utilisation et l'utilisateur, mais des exemples seulement sera probablement très utile pour moi.

Était-ce utile?

La solution

Pour comprendre la variété de l'apprentissage de la machine façons peut être intégré dans des applications de production, je pense qu'il est utile d'examiner les projets open source et papiers / messages de blog des entreprises décrivant leur infrastructure.

Le thème commun que ces systèmes ont est la séparation de la formation du modèle de l'application du modèle. Dans les systèmes de production, les besoins d'application de modèle pour être rapide, de l'ordre de 100s de ms, mais il y a plus de liberté dans la fréquence des paramètres de modèle ajusté (ou équivalent) doivent être mis à jour.

Les gens utilisent une large gamme de solutions pour la formation et le déploiement modèle:

Autres conseils

L'une des plus détaillées et des explications claires de la mise en place d'un pipeline d'analyse complexe des gens plus Twitch .
Ils donnent des motivations détaillées de chacun des choix d'architecture pour la collecte, le transport, la coordination, le traitement, le stockage et l'interrogation de leurs données.
lecture convaincante! Trouvez et ici .

et Airbnb Etsy à la fois des informations détaillées récemment mis en ligne sur leurs flux de travail.

Chapitre 1 de la science des données pratique avec R ( http://www.manning.com/zumel/) a une grande rupture du processus de la science des données, y compris les rôles de l'équipe et la façon dont ils se rapportent à des tâches spécifiques. Le livre suit les modèles présentés dans le chapitre en faisant référence qui met en scène / personnel telle ou telle tâche particulière sera effectuée par.

Licencié sous: CC-BY-SA avec attribution
scroll top