Frage

Wenn Sie die Präsentation und das Material von Summingbird von Twitter durchlaufen, wird einer der Gründe für die Verwendung von Sturm- und Hadoop -Clustern in Summenbird erwähnt, dass die Verarbeitung durch Sturm zu einer Kaskadierung des Fehlers führt. Um diese Kaskadierung des Fehlers und der Ansammlung davon zu vermeiden, wird Hadoop -Cluster verwendet, um die Daten zu verarbeiten und die Sturmergebnisse zu verwerfen, nachdem dieselben Daten von Hadoop verarbeitet wurden.

Was sind die Gründe für die Erzeugung dieser Fehlerakkumulation? Und warum ist es nicht in Hadoop vorhanden? Da ich nicht mit Storm gearbeitet habe, kenne ich die Gründe dafür nicht. Liegt es daran, dass Storm einen ungefähren Algorithmus verwendet, um die Daten zu verarbeiten, um sie in Echtzeit zu verarbeiten? Oder ist die Ursache noch etwas anderes?

War es hilfreich?

Lösung

Twitter verwendet Storm für die Echtzeitverarbeitung von Daten. Probleme können mit Echtzeitdaten auftreten. Systeme können sinken. Daten können versehentlich zweimal verarbeitet werden. Netzwerkverbindungen können verloren gehen. In einem Echtzeitsystem kann viel passieren.

Sie verwenden Hadoop, um historische Daten zuverlässig zu verarbeiten. Ich kenne keine Einzelheiten, aber beispielsweise ist es wahrscheinlich zuverlässiger, solide Informationen von aggregierten Protokollen zu erhalten, als an den Stream anzuhängen.

Wenn sie sich einfach auf Sturm für alles verlassen würden, hätte Storm Probleme, weil sie in der Skala in Echtzeitinformationen bereitgestellt werden. Wenn sie sich für alles auf Hadoop verlassen haben, ist eine Menge Latenz beteiligt. Das Kombinieren der beiden mit Summingbird ist der nächste logische Schritt.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit datascience.stackexchange
scroll top