質問

TwitterによるSummingbirdのプレゼンテーションと素材を調べると、SummingbirdでStormとHadoopクラスターを一緒に使用するために言及されている理由の1つは、ストームによる処理によりエラーが発生することです。このエラーのカスケードとそれの蓄積を回避するために、Hadoopクラスターは、同じデータがHadoopによって処理された後、データを処理し、ストーム結果を破棄するために使用されます。

このエラーの蓄積の生成の理由は何ですか?そして、なぜそれはHadoopに存在しないのですか?私はストームと仕事をしていないので、その理由を知りません。それは、Stormがいくつかの近似アルゴリズムを使用してデータを処理してリアルタイムで処理するためですか?それとも原因は何か他のものですか?

役に立ちましたか?

解決

Twitterは、データのリアルタイム処理のためにStormを使用します。リアルタイムデータで問題が発生する可能性があります。システムはダウンする可能性があります。データは誤って2回処理される可能性があります。ネットワーク接続が失われる可能性があります。リアルタイムシステムでは多くのことが起こります。

Hadoopを使用して、履歴データを確実に処理します。詳細はわかりませんが、たとえば、集計ログから強固な情報を取得することは、おそらくストリームに取り付けるよりも信頼性が高いでしょう。

彼らが単にすべての嵐に頼っていたなら、嵐は大規模にリアルタイム情報を提供する性質のために問題を抱えています。彼らがすべてのためにHadoopに依存していた場合、かなりの遅延が関係しています。 2つをSummingbirdと組み合わせることは、次の論理的なステップです。

ライセンス: CC-BY-SA帰属
所属していません datascience.stackexchange
scroll top