Pregunta

Estoy tratando de entender cómo todos los componentes de datos "grande" jugar juntos en un caso de uso en el mundo real, por ejemplo, hadoop, monogodb / NoSQL, tormenta, kafka, ... Sé que esto es bastante una amplia gama de herramientas que se utilizan para diferentes tipos, pero me gustaría llegar a conocer más acerca de su interacción en aplicaciones, por ejemplo, aprendizaje pensamiento máquina para una aplicación, aplicación web, tienda en línea.

tengo visitantes lo / sesión, etc datos de la transacción y la tienda que; pero si quiero hacer recomendaciones sobre la marcha, no puedo funcionar el mapa lenta / reducir puestos de trabajo para que en alguna gran base de datos de registros que tengo. ¿Dónde puedo obtener más información sobre los aspectos de infraestructura? Creo que puedo utilizar la mayoría de las herramientas por sí solas, pero conectarlos entre sí parece ser un arte en sí mismo.

¿Hay ejemplos / casos de uso público, etc. disponibles? Yo entiendo que las tuberías individuales dependen en gran medida del caso de uso y el usuario, pero sólo ejemplos, probablemente, va a ser muy útil para mí.

¿Fue útil?

Solución

Con el fin de comprender la variedad de formas de aprendizaje automático puede integrarse en aplicaciones de producción, creo que es útil examinar proyectos de código abierto y documentos / publicaciones en el blog de las compañías que describe su infraestructura.

El tema común que estos sistemas tienen es la separación del modelo de formación de la aplicación del modelo. En los sistemas de producción, las necesidades de aplicación del modelo a ser rápido, del orden de 100s de ms, pero hay más libertad en la frecuencia con armarios parámetros del modelo (o equivalente) necesitan una actualización.

La gente utiliza una amplia gama de soluciones para la formación de modelo y de despliegue:

Otros consejos

Una de las explicaciones más detallada y clara de la creación de una tubería de análisis complejo es de la gente más en Twitch .
Ellos dan motivos detallados de cada una de las opciones de arquitectura para la recogida, el transporte, la coordinación, el procesamiento, el almacenamiento y consulta de sus datos.
lectura convincente! Encontrar aquí y aquí .

Airbnb y Etsy tanto la información detallada recientemente publicado sobre sus flujos de trabajo.

Capítulo 1 de Ciencia Práctica de datos con R ( http://www.manning.com/zumel/) tiene una gran ruptura del proceso de la ciencia de datos, incluyendo las funciones del equipo y cómo se relacionan con tareas específicas. El libro sigue los modelos establecidos en el capítulo de referencia que pone en escena / personal tal o cual tarea en particular se lleva a cabo por.

Licenciado bajo: CC-BY-SA con atribución
scroll top