阿帕奇风暴中的级联错误

题

通过Twitter通过Twitter的Sumpingbird的演示和材料，在Sumpingbird中提到的使用Storm和Hadoop簇的原因之一是通过风暴处理导致错误的错误。为了避免这种错误和误差的级联，Hadoop群集用于批处理数据并在Hadoop处理相同的数据后丢弃风暴结果。

产生这种错误积累的原因是什么？为什么它不存在于Hadoop中？由于我没有与Storm合作，因此我不知道原因。是因为Storm使用一些近似算法来处理数据以实时处理数据？还是原因是其他原因？

解决方案

Twitter使用Storm进行数据实时处理。实时数据可能会发生问题。系统可能会下降。数据可能会无意间处理两次。网络连接可能会丢失。实时系统可能会发生很多事情。

他们使用Hadoop可靠地处理历史数据。我不知道细节，但是例如，从聚合日志中获取可靠的信息可能比附加到流更可靠。

如果他们只是简单地依靠风暴来付出一切 - 由于规模规模提供实时信息的性质，风暴将遇到问题。如果他们依靠Hadoop依靠一切，那么涉及大量延迟。将两者与求和鸟结合在一起是下一个逻辑步骤。

许可以下： CC-BY-SA 和归因