Pregunta

Estoy mirando la construcción de algunos de almacenamiento de datos / consulta de la infraestructura, en este momento en la parte superior de un mapa / Reducir soluciones como Hadoop.

Sin embargo, me parece que todo el trabajo de M / R es simplemente repetir lo que los chicos RDBMS han resuelto en los últimos 20 años con bases de datos SQL paralelas. Paralelo escala implementaciones SQL lee y escribe en los nodos, al igual que M / R, pero, además, contiene ya las sutilezas de bases de datos (SQL regulares, bibliotecas de integración existentes, etc.).

El problema es: que no parece encontrar los clientes de esas empresas que desplazan tanto en línea. Así que, ¿alguien aquí tiene experiencia con este tipo de soluciones, y me puede dar una idea y / o enlaces?

¿Fue útil?

Solución

He utilizado Netezza y Hadoop. Y tienen conocimiento de segunda mano de Infobright, una base de datos de la columna.

Netezza es una base de datos verdadero e implementa propiedades ACID, que tiene tanto un coste y un beneficio. Netezza se está moviendo hacia lo que permite un código más M / R para ejecutar en sus datos de la tabla con la nueva arquitectura de TwinFin. En la versión anterior del aparato apoyaron las funciones definidas por el usuario y agregaciones. En la nueva versión, que se ejecuta Linux en el SPU y utiliza los procesadores de Intel, la puerta se está abriendo a hacer más código personalizado cerca de los datos. Mi experiencia con Netezza ha sido muy positiva -. Tanto la tecnología como la empresa

Hadoop es un mapa-pura reducir la informática. Que no incurre en el costo de propiedades de la base ACID. Por lo tanto, es realmente una bestia diferente de Netezza. Dependiendo del patrón de uso que puede ser mejor y ciertamente más barato que Netezza. Hadoop tenía apoya hbase y Colmena que le puede dar la comodidad de consulta que necesita a un costo más bajo.

Otro desarrollador en nuestro equipo evaluó Infobright, por lo que esta es la segunda parte, y encontró el rendimiento de la carga a ser pobre y algunas de las agregaciones a ser lento. Tiene algunos paralelismos con Netezza (por ejemplo, mapas de zonas se utilizan en Netezza para ayudar alcance de exploración estrecho). Infobright es de código abierto tanto con una comunidad y una edición empresarial apoyado.

Hay mucho más que se puede decir en el contexto de su problema particular - probablemente más allá del alcance de este foro. Espero que esto ayude.

Otros consejos

No ha especificado qué preguntas usted está tratando de responder a sus consultas, o cómo está estructurado sus datos. Antes de elegir qué solución utilizar es probable que tenga que pensar en esas dos cosas.

Tiene razón: los principales proveedores de RDBMS ofrecen soluciones de clustering; tanto para el procesamiento paralelo y alta disponibilidad. Han tenido esta tecnología por un tiempo y cualquier empresa con una gran cantidad de datos, probablemente lo está utilizando. Cuando usted compra ($$$) del producto que le dará una gran cantidad de documentación y ayudar a que lo creó (más $$$) si se lo puede permitir.

RDBMS son buenas para las transacciones en línea (OLTP); responder a preguntas sobre las filas específicas (¿dónde vive María?); responder a algunas preguntas de tipo sumario (¿cuánto vendemos en el primer trimestre, etc.) A pesar de que se pueden hacer para realizar preguntas resumen detallado (¿cuánto se venden en el primer trimestre, desglosadas por producto, vendedor, mes, y la región?), que está por lo general a partir de gravar sus límites (cualquier consulta que necesita visitar todas las filas va a ser lento).

Para esos tipos de consulta mayoría de las empresas tienen un almacén de datos que las estructuras de los datos en múltiples dimensiones "cubos". (Ver Cognos, Hyperion, otros). Eso puede ser apropiado para lo que estamos tratando de hacer.

No tenemos ninguna experiencia con MapReduce pero he leído la sección de Wikipedia sobre Usos y por lo que si lo que estás tratando de hacer cae en esas categorías me continuar con él.

Si usted está en una organización en crecimiento acelerado, se debe utilizar Teradata. Realmente tenemos una buena experiencia con Teradata. Se le da la capacidad de ampliación que no puede ser dado por cualquier otro proveedor. Una vez que se acostumbre a su estilo de trabajo SQL y usted podrá apreciar realmente el diseño y la arquitectura de Teradata.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top