Buscando pilas ejemplo de infraestructura / flujos de trabajo / tuberías

https://datascience.stackexchange.com/questions/430

16-10-2019
|

Pregunta

Estoy tratando de entender cómo todos los componentes de datos "grande" jugar juntos en un caso de uso en el mundo real, por ejemplo, hadoop, monogodb / NoSQL, tormenta, kafka, ... Sé que esto es bastante una amplia gama de herramientas que se utilizan para diferentes tipos, pero me gustaría llegar a conocer más acerca de su interacción en aplicaciones, por ejemplo, aprendizaje pensamiento máquina para una aplicación, aplicación web, tienda en línea.

tengo visitantes lo / sesión, etc datos de la transacción y la tienda que; pero si quiero hacer recomendaciones sobre la marcha, no puedo funcionar el mapa lenta / reducir puestos de trabajo para que en alguna gran base de datos de registros que tengo. ¿Dónde puedo obtener más información sobre los aspectos de infraestructura? Creo que puedo utilizar la mayoría de las herramientas por sí solas, pero conectarlos entre sí parece ser un arte en sí mismo.

¿Hay ejemplos / casos de uso público, etc. disponibles? Yo entiendo que las tuberías individuales dependen en gran medida del caso de uso y el usuario, pero sólo ejemplos, probablemente, va a ser muy útil para mí.

Solución

Con el fin de comprender la variedad de formas de aprendizaje automático puede integrarse en aplicaciones de producción, creo que es útil examinar proyectos de código abierto y documentos / publicaciones en el blog de las compañías que describe su infraestructura.

El tema común que estos sistemas tienen es la separación del modelo de formación de la aplicación del modelo. En los sistemas de producción, las necesidades de aplicación del modelo a ser rápido, del orden de 100s de ms, pero hay más libertad en la frecuencia con armarios parámetros del modelo (o equivalente) necesitan una actualización.

La gente utiliza una amplia gama de soluciones para la formación de modelo y de despliegue:

Construir un modelo, a continuación, exportar y desplegarlo con PMML
- AirBnB describe su modelo de formación en I / Python y el despliegue de PMML modelos vía OpenScoring.
- Patrón está relacionada con el proyecto cascada que puede consumir PMML y desplegar modelos predictivos.
Construir un modelo de los valores de MapReduce y de acceso en un sistema personalizado
- conjetura es un proyecto de código abierto de Etsy que permite el entrenamiento modelo con Escaldado , una más fácil de usar envoltura alrededor de MapReduce Scala, y el despliegue a través de PHP.
- Kiji es un proyecto de código abierto de WibiData que permite para la puntuación modelo en tiempo real (aplicación), así como functioanlity por persistir los datos del usuario y la formación de modelos en esos datos a través de escaldado.
El uso de un sistema en línea que permite la actualización permanente de los parámetros del modelo.
- Google lanzó un gran papel sobre un filtrado colaborativo en línea implementaron para hacer frente a las recomendaciones en Google Noticias .

Otros consejos

Una de las explicaciones más detallada y clara de la creación de una tubería de análisis complejo es de la gente más en Twitch .
Ellos dan motivos detallados de cada una de las opciones de arquitectura para la recogida, el transporte, la coordinación, el procesamiento, el almacenamiento y consulta de sus datos.
lectura convincente! Encontrar aquí y aquí .

Airbnb y Etsy tanto la información detallada recientemente publicado sobre sus flujos de trabajo.

Capítulo 1 de Ciencia Práctica de datos con R ( http://www.manning.com/zumel/) tiene una gran ruptura del proceso de la ciencia de datos, incluyendo las funciones del equipo y cómo se relacionan con tareas específicas. El libro sigue los modelos establecidos en el capítulo de referencia que pone en escena / personal tal o cual tarea en particular se lleva a cabo por.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a datascience.stackexchange