Errore in cascata in Apache tempesta

https://datascience.stackexchange.com/questions/228

16-10-2019
|

Domanda

Passando attraverso la presentazione e il materiale di Summingbird da Twitter, uno dei motivi che è indicato per l'utilizzo di cluster di tempesta e Hadoop insieme in Summingbird è che l'elaborazione attraverso i risultati di tempesta in cascata di errore. Per evitare questa cascata di errore e l'accumulo di esso, di cluster Hadoop è usato per processo batch i dati e scartare i risultati di tempesta dopo gli stessi dati viene elaborata dal Hadoop.

Qual è le ragioni per la generazione di questo accumulo di errore? e perché non è presente in Hadoop? Dal momento che non ho lavorato con la tempesta, non so le ragioni per questo. È perché Tempesta utilizza qualche algoritmo approssimato per elaborare i dati al fine di elaborare in tempo reale? o è la causa di qualcos'altro?

Soluzione

Twitter utilizza tempesta in tempo reale elaborazione dei dati. I problemi possono accadere con dati in tempo reale. Sistemi potrebbero andare giù. I dati potrebbero essere inavvertitamente processato due volte. Le connessioni di rete possono essere persi. Una partita può accadere in un sistema in tempo reale.

Si usa Hadoop per elaborare in modo affidabile i dati storici. Non so dettagli, ma per esempio, ottenere informazioni solide dai registri aggregati è probabilmente più affidabile di associare al flusso.

Se hanno semplicemente fatto valere tempesta per tutto - Tempesta avrebbe problemi a causa della natura di fornire informazioni in tempo reale su larga scala. Se essi si basava su Hadoop per ogni cosa, c'è una buona dose di latenza coinvolti. Combinando i due con Summingbird è il passo logico successivo.

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a datascience.stackexchange