Erreur dans Apache tempête cascadé

https://datascience.stackexchange.com/questions/228

16-10-2019
|

Question

En passant par la présentation et le matériau de Summingbird par Twitter, l'une des raisons qui est mentionné pour l'utilisation de grappes de tempête et Hadoop ensemble dans Summingbird est que le traitement par le biais des résultats de tempête en cascade d'erreur. Afin d'éviter cette cascade d'erreur et de l'accumulation de celui-ci, un cluster Hadoop est utilisé pour traiter par lots les données et jeter les résultats de tempête après les mêmes données sont traitées par Hadoop.

Quelle est la raison pour la production de cette accumulation d'erreur? et pourquoi est-il pas présent dans Hadoop? Depuis que je ne l'ai pas travaillé avec la tempête, je ne connais pas les raisons. Est-ce parce que la tempête utilise un algorithme approximatif pour traiter les données afin de les traiter en temps réel? ou est la cause d'autre chose?

La solution

Twitter utilise Storm en temps réel le traitement des données. Des problèmes peuvent se produire avec des données en temps réel. Les systèmes pourraient baisser. Les données peuvent être par inadvertance traité deux fois. Les connexions réseau peuvent être perdues. Beaucoup de choses peuvent se produire dans un système en temps réel.

Ils utilisent Hadoop pour traiter de manière fiable des données historiques. Je ne sais pas les détails, mais, par exemple, obtenir des informations solides à partir de grumes agrégées est probablement plus fiable que la fixation au courant.

S'ils ont simplement compté Storm pour tout - Tempête aurait des problèmes en raison de la nature de fournir des informations en temps réel à l'échelle. S'ils se sont appuyés sur Hadoop pour tout, il y a beaucoup de temps d'attente impliqué. La combinaison des deux avec Summingbird est la prochaine étape logique.

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange