Invertire (o annullare) un grosso carico in una tabella dei fatti del magazzino

StackOverflow https://stackoverflow.com/questions/422041

  •  05-07-2019
  •  | 
  •  

Domanda

Attualmente, prevediamo di registrare un "batch id" " per ogni serie di fatti caricati. In questo modo, possiamo ripristinare il carico nel caso riscontrassimo problemi.

Dovremmo considerare di tenere traccia dell'ID batch anche nelle righe delle dimensioni?

Sembra che le file di dimensioni abbiano regole diverse. Se li trattiamo come un cambiamento lento e utilizziamo uno degli algoritmi SCD che preserva la cronologia, un ricaricamento non significa molto.

Scenario tipico. Dimensione conforme, gestione SCD. Carica fatti. Fatto.

Extension. Dimensione conforme, gestione SCD. Carica fatti. Trova un problema Elimina la serie di fatti. Risolvi il problema. Ricarica i fatti. Fatto.

Possibile scenario. Dimensione conforme, gestione SCD. Carica fatti. Trova un problema Elimina il batch di fatti e le righe della dimensione. Risolvi il problema. Dimensione conforme, gestione SCD. Carica fatti. Fatto.

Non sembra che il monitoraggio delle modifiche alle dimensioni sia di grande aiuto. Qualsiasi guida su come gestire al meglio un "annullamento" o "rollback" di un carico del data warehouse?

I nostri strumenti ETL sono applicazioni Python interamente sviluppate in casa.

È stato utile?

Soluzione

Dal mio punto di vista fintanto che non stai abusando delle tue dimensioni (come il tempo di tracciamento al millisecondo) non c'è molto guadagno da tenere traccia delle dimensioni per un rollback. Inoltre, puoi creare uno strumento per ripulire le dimensioni senza riferimento una volta al mese.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top