Auf der Suche auf Infrastrukturstapel/Workflows/Pipelines

https://datascience.stackexchange.com/questions/430

16-10-2019
|

Frage

Ich versuche zu verstehen, wie alle "Big Data" -Komponenten in einem realen Anwendungsfall zusammenspielen, z. Verschiedene Typen, aber ich möchte mehr über ihre Interaktion in Anwendungen erfahren, z. B. maschinelles Lernen für eine App, WebApp, Online -Shop.

Ich habe Vistors/Sitzungen, Transaktionsdaten usw. und speichere das. Wenn ich jedoch im laufenden Fliegen Empfehlungen abgeben möchte, kann ich in einer großen Datenbank mit Protokollen, die ich habe, nicht langsame Karte/reduzieren. Wo kann ich mehr über die Infrastrukturaspekte erfahren? Ich denke, ich kann die meisten Tools selbst verwenden, aber es scheint eine eigene Kunst zu sein.

Gibt es öffentliche Beispiele/Anwendungsfälle usw.? Ich verstehe, dass die einzelnen Pipelines stark vom Anwendungsfall und dem Benutzer abhängen, aber nur Beispiele werden für mich wahrscheinlich sehr nützlich sein.

Lösung

Um zu verstehen, wie viel wie maschinelles Lernen in Produktionsanwendungen integriert werden kann, ist es hilfreich, Open -Source -Projekte und -Papiere/Blog -Posts von Unternehmen zu betrachten, die ihre Infrastruktur beschreiben.

Das gemeinsame Thema, das diese Systeme haben, ist die Trennung des Modelltrainings von der Modellanwendung. In Produktionssystemen muss die Modellanwendung schnell in der Reihenfolge von Hunderts von MS sein, aber es gibt mehr Freiheit darin, wie häufig angepasste Modellparameter (oder gleichwertig) aktualisiert werden müssen.

Menschen verwenden eine breite Palette von Lösungen für Modelltraining und -bereitstellung:

Erstellen Sie ein Modell, exportieren Sie es und stellen Sie es mit PMML ein
- Airbnb beschreibt ihr Modelltraining in R/Python und Bereitstellung von PMML -Modellen über OpenScoring.
- Muster ist ein Projekt im Zusammenhang mit Kaskadierung Das kann PMML und Vorhersagemodelle konsumieren.
Erstellen Sie ein Modell in MapReduce- und Zugriffswerten in einem benutzerdefinierten System
- Vermutung ist ein Open -Source -Projekt von Etsy Das ermöglicht ein Modelltraining mit Sammeln, eine einfachere Verwendung von Scala -Wrapper um MapReduce und eine Bereitstellung über PHP.
- Kiji ist ein Open -Source -Projekt von Wibidata Dies ermöglicht die Echtzeit-Modellbewertung (Anwendung) sowie eine Functioanlity für die fortlaufenden Benutzerdaten und Schulungsmodelle zu diesen Daten über Sammeln.
Verwenden Sie ein Online -System, mit dem Modellparameter kontinuierlich aktualisiert werden können.
- Google hat ein großartiges Papier über eine Online -Zusammenarbeit veröffentlicht Sie implementierten, um Empfehlungen in Google News zu behandeln.

Andere Tipps

Eine der detailliertesten und klarsten Erklärungen für die Einrichtung einer komplexen Analysepipeline ist von den Leuten bei AT bei Zucken.
Sie geben detaillierte Motivationen jeder Architekturauswahl für Sammeln, Transport, Koordination, Verarbeitung, Speicherung und Abfragen ihrer Daten.
Überzeugende Lektüre! Finde es hier und hier.

Airbnb und Etsy Beide haben kürzlich detaillierte Informationen zu ihren Workflows veröffentlicht.

Kapitel 1 der praktischen Datenwissenschaft mit R (http://www.manning.com/zumel/) hat eine große Aufschlüsselung des Datenwissenschaftsprozesses, einschließlich Teamrollen und der Art und Weise, wie sie sich auf bestimmte Aufgaben beziehen. Das Buch folgt den in dem Kapitel festgelegten Modellen, indem er bezieht, auf welche Phasen/Personal diese oder diese bestimmte Aufgabe ausgeführt werden.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit datascience.stackexchange