通过Twitter通过Twitter的Sumpingbird的演示和材料,在Sumpingbird中提到的使用Storm和Hadoop簇的原因之一是通过风暴处理导致错误的错误。为了避免这种错误和误差的级联,Hadoop群集用于批处理数据并在Hadoop处理相同的数据后丢弃风暴结果。

产生这种错误积累的原因是什么?为什么它不存在于Hadoop中?由于我没有与Storm合作,因此我不知道原因。是因为Storm使用一些近似算法来处理数据以实时处理数据?还是原因是其他原因?

有帮助吗?

解决方案

Twitter使用Storm进行数据实时处理。实时数据可能会发生问题。系统可能会下降。数据可能会无意间处理两次。网络连接可能会丢失。实时系统可能会发生很多事情。

他们使用Hadoop可靠地处理历史数据。我不知道细节,但是例如,从聚合日志中获取可靠的信息可能比附加到流更可靠。

如果他们只是简单地依靠风暴来付出一切 - 由于规模规模提供实时信息的性质,风暴将遇到问题。如果他们依靠Hadoop依靠一切,那么涉及大量延迟。将两者与求和鸟结合在一起是下一个逻辑步骤。

许可以下: CC-BY-SA归因
scroll top