Pregunta

Estoy evaluando una plataforma de almacenamiento para un próximo proyecto y seguimos regresando a Cassandra. Para este proyecto perder cualquier cantidad de los datos es inaceptable. Hasta ahora hemos usado una base de datos relacional (Microsoft SQL Server), pero los datos son tan variados y de gran tamaño que se ha convertido en un problema para almacenar y consulta.

Es Cassandra suficientemente robusta como para utilizar como almacén de datos primaria? O en caso de que sólo se puede utilizar para duplicar los datos existentes para acelerar el acceso?

¿Fue útil?

Solución

Como anécdota: sí, Twitter, Digg, Ooyala, SimpleGeo, Mahalo, y otros están utilizando o se mueve a Cassandra para un almacén de datos primario ( http://n2.nabble.com/Cassandra-users-survey-td4040068.html ).

Técnicamente: sí; además de apoyar la replicación (incluyendo a varios centros de datos), cada nodo tiene un Cassandra fsync'd registro de confirmación para asegurarse de que las escrituras son duraderos; desde allí escrituras se convirtieron en SSTables que son inmutables hasta compactación (que combina múltiples SSTables a GC versiones antiguas). Snapshotting está soportado en cualquier momento, incluyendo snapshot-antes-compactación automática.

Otros consejos

Si hay que usar Cassandra para su aplicación o no depende puramente de las cargas de trabajo de datos. Cassandra está optimizado para cargas de trabajo de escritura intensiva, por lo tanto, es adecuado para aplicaciones donde una gran cantidad de datos que sea insertado (como la información de registro de infraestructura en Facebook).

Sin embargo, si usted requiere recuperaciones rápidas y la velocidad de inserción no es un problema, entonces tal vez debería echar un vistazo a decir HBase (que está optimizado de cargas de trabajo intensivas de lectura).

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top