Domanda

Recentemente ho letto un articolo intitolato "SATA controAffidabilità SCSI".Discute principalmente dell'altissima velocità di bit flipping nelle unità SATA consumer e conclude "Una probabilità del 56% che non sia possibile leggere tutti i dati da un particolare disco adesso".Anche Raid-5 non può salvarci poiché deve essere costantemente scansionato per individuare eventuali problemi e se un disco muore è praticamente sicuro che ci saranno alcuni bit invertiti sul file system ricostruito.

Considerazioni:

Ho sentito grandi cose su Sun's ZFS con Raid-Z ma le implementazioni Linux e BSD sono ancora sperimentali.Non sono sicuro che sia ancora pronto per la prima serata.

Ho anche letto parecchio riguardo a Par2 formato del file.Sembra che memorizzare una percentuale di parità aggiuntiva insieme a ciascun file ti consentirebbe di risolvere la maggior parte dei problemi.Tuttavia, non sono a conoscenza di un file system che lo faccia internamente e sembra che potrebbe essere difficile gestire i file separati.

Backup (modifica):

Capisco che i backup sono fondamentali.Tuttavia, senza un qualche tipo di controllo, potresti facilmente inviare dati errati a persone senza nemmeno saperlo.Anche capire quale backup ha una buona copia di quei dati potrebbe essere difficile.

Ad esempio, hai un array Raid-5 in esecuzione per un anno e trovi un file danneggiato.Ora devi tornare indietro a controllare i tuoi backup finché non trovi una buona copia.Idealmente dovresti andare al primo backup che include il file, ma potrebbe essere difficile da capire, soprattutto se il file è stato modificato molte volte.Ancora peggio, considera se il file è stato aggiunto o modificato dopo che si è verificato il danneggiamento.Questo da solo è un motivo sufficiente per la parità a livello di blocco come Par2.

È stato utile?

Soluzione

ZFS è un inizio.Molti fornitori di storage forniscono unità da 520B con protezione dei dati aggiuntiva disponibile.Tuttavia, questo protegge i tuoi dati solo non appena entrano nel tessuto di archiviazione.Se è stato danneggiato a livello di host, verrai comunque eliminato.

All’orizzonte ci sono alcune promettenti soluzioni basate su standard proprio per questo problema.Protezione dei dati end-to-end.

Considera T10 DIF (campo di integrità dei dati).Si tratta di uno standard emergente (è stato redatto 5 anni fa) e di una nuova tecnologia, ma ha l’obiettivo ambizioso di risolvere il problema della corruzione dei dati.

Altri suggerimenti

Questo articolo esagera notevolmente il problema fraintendendo la fonte.Si presuppone che gli eventi di perdita di dati siano indipendenti, ovvero che se prendo mille dischi e ottengo cinquecento errori, è probabile che ce ne sia uno su cinquecento dischi.Ma in realtà, come sa chiunque abbia avuto problemi con il disco, probabilmente ci sono cinquecento errori su un disco (ancora una piccola frazione della capacità totale del disco), e gli altri novecentonovantanove andavano bene.Pertanto, in pratica non c'è il 56% di possibilità che tu non riesca a leggere tutto il tuo disco, piuttosto, è probabilmente più simile all'1% o meno, ma la maggior parte delle persone in quell'1% scoprirà di aver perso dozzine di dischi. o centinaia di settori anche se il disco nel suo insieme non ha ceduto.

Sicuramente gli esperimenti pratici riflettono questa comprensione, non quella offerta nell’articolo.

Fondamentalmente questo è un esempio di "sussurri cinesi".L'articolo qui linkato si riferisce ad un altro articolo, che a sua volta si riferisce indirettamente ad un articolo pubblicato.Il giornale dice che ovviamente questi eventi lo sono non indipendente ma questo fatto vitale scompare con il passaggio al formato blog facilmente digeribile.

56% di possibilità che non riesca a leggere qualcosa, ne dubito.Utilizzo un mix di RAID 5 e altre funzionalità e solo buone pratiche di backup, ma con Raid 5 e un hot spare non ho mai avuto perdite di dati, quindi non sono sicuro del motivo di tutto questo trambusto.Se stai memorizzando informazioni sulla parità...beh, stai creando un sistema RAID utilizzando un software, un guasto del disco in R5 si traduce in un controllo di parità per recuperare i dati del disco persi, quindi ...è già lì.

Esegui Raid, esegui il backup dei tuoi dati, starai bene :)

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top