Error en cascada en Apache tormenta

https://datascience.stackexchange.com/questions/228

16-10-2019
|

Pregunta

Yendo a través de la presentación y el material de Summingbird por Twitter, una de las razones que se mencionan para el uso de tormenta y Hadoop grupos juntos en Summingbird es que el procesamiento a través de los resultados de tormenta en cascada de error. Con el fin de evitar esta cascada de error y la acumulación de la misma, clúster Hadoop se utiliza para procesar por lotes los datos y desechar los resultados de tormenta después de que el mismo datos son procesados ??por Hadoop.

¿Qué es las razones para la generación de esta acumulación de errores? y por qué no es presente en Hadoop? Ya que no he trabajado con la tormenta, no sé las razones para ello. ¿Es porque la tormenta usa algún algoritmo aproximado para procesar los datos con el fin de procesarlas en tiempo real? o es la causa de otra cosa?

Solución

Twitter utiliza Tormenta de procesamiento en tiempo real de los datos. Los problemas pueden ocurrir con datos en tiempo real. Sistemas podrían bajar. Los datos pueden ser procesados ??sin darse cuenta dos veces. Las conexiones de red se pueden perder. Muchas cosas pueden pasar en un sistema en tiempo real.

Se utiliza Hadoop para procesar de forma fiable los datos históricos. No sé los detalles, pero por ejemplo, la obtención de información sólida a partir de los registros agregados es probablemente más fiable que adjuntar a la corriente.

Si simplemente se basó en la tormenta para todo - Tormenta tendría problemas debido a la naturaleza de proporcionar información en tiempo real a escala. Si se apoyaron en Hadoop para todo, hay un acuerdo bien de latencia involucrados. La combinación de las dos con Summingbird es el siguiente paso lógico.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a datascience.stackexchange