Domanda

sto valutando una piattaforma di storage per un progetto imminente e continuano a tornare a Cassandra. Per questo progetto slacciare qualsiasi quantità di dati è inaccettabile. Finora abbiamo utilizzato un database relazionale (Microsoft SQL Server), ma i dati sono così vario e grande che è diventato un problema per memorizzare e query.

E 'Cassandra abbastanza robusto da utilizzare come archivio dati primario? O dovrebbe essere utilizzato solo per il mirroring dei dati esistenti per accelerare l'accesso?

È stato utile?

Soluzione

Aneddoticamente: sì, Twitter, Digg, Ooyala, SimpleGeo, Mahalo, e altri stanno utilizzando o lo spostamento a Cassandra per un archivio di dati primario ( http://n2.nabble.com/Cassandra-users-survey-td4040068.html ).

Tecnicamente: yes; oltre a sostenere la replicazione (tra cui a più data center), ogni nodo Cassandra ha un fsync'd commit log per assicurarsi che le scritture sono durevoli; da lì scrive si trasformano in SSTables che sono immutabili fino compattazione (che combina più SSTables al GC vecchie versioni). Snapshotting è supportato in qualsiasi momento, anche automatico un'istantanea-prima-compattazione.

Altri suggerimenti

Se utilizzare Cassandra per la vostra applicazione o meno dipende esclusivamente i carichi di lavoro di dati. Cassandra è ottimizzato per carichi di lavoro intensivo di scrittura, pertanto, è adatto per applicazioni in cui una grande quantità di dati che devono essere inseriti (quali le infrastrutture registrazione delle informazioni Facebook).

Se, tuttavia, avete bisogno di recuperi veloci e la velocità di inserimento non è un problema, allora forse si dovrebbe dare un'occhiata a dire HBase (che è ottimizzato dei carichi di lavoro ad alta intensità di lettura).

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top