¿Hay algún marco de almacenamiento de datos?

https://stackoverflow.com/questions/158775

03-07-2019
|

Pregunta

Tengo muchos datos mysql de los que necesito generar informes. La mayoría son datos históricos, por lo que no cambiarán mucho, pero pesan entre 20 y 30 gigabytes fácilmente y se espera que crezcan. Actualmente tengo una colección de scripts php que hará algunas consultas complejas y generará archivos csv y excel. También uso phpMyAdmin con consultas marcadas. Los edito manualmente para cambiar los parámetros. La cantidad de datos está creciendo y la cantidad de personas que necesitan acceso a ellos también está creciendo, por lo que estoy aprovechando el tiempo para mejorar esta situación.

Comencé a leer sobre el almacenamiento de datos el otro día y parece que esta es un área que se relaciona con lo que necesito hacer. He leído algo good articles y hasta estoy esperando un libro. Creo que estoy aprendiendo qué hacen estos tipos de sistemas y qué es posible.

La creación de un sistema de informes para mis datos siempre ha estado en una lista de tareas pendientes, pero hasta hace poco pensé que sería una empresa de programación altamente especializada. Como ahora sé que el almacenamiento de datos es una cosa común, creo que debe haber algún tipo de marcos de creación de informes / almacenamiento disponibles para facilitar el desarrollo. Me encantaría omitir la escritura de interfaces y scripts para programar y enviar por correo electrónico informes y similares, y me limito a escribir consultas y establecer relaciones.

En su mayoría he sido un tipo de lámpara, pero no estoy por encima de cambiar de idioma o plataforma. Solo necesito una solución más robusta, ya que mis scripts únicos no se escalan bien.

Entonces, ¿dónde es un buen lugar para comenzar?

Solución

Discutiré algunos puntos sobre el espectro {presupuesto, función de utilidad de negocios, marco de tiempo} que existe. Para mayor comodidad, sigamos la conceptualización de la arquitectura a la que se vinculó en

& nbsp; & nbsp; WikipediaDataWarehouseArticle

capa de base de datos operativa
Los datos de origen para el almacén de datos: normalizados para el mantenimiento de datos en un solo lugar
capa de acceso a datos
La transformación de sus datos de origen en su capa de acceso informativo.
Las herramientas ETL para extraer, transformar y cargar datos en el almacén se encuentran en esta capa.
capa de acceso informativo
& nbsp; • Estructura de datos facilitadora de informes
& nbsp; & nbsp; & nbsp; Los datos no se mantienen aquí. Es simplemente un reflejo de sus datos de origen
& nbsp; & nbsp; & nbsp; Por lo tanto, estructuras desnormalizadas (que contienen datos duplicados, pero derivados sistemáticamente)
& nbsp; & nbsp; & nbsp; usualmente son más efectivos aquí
& nbsp; • Herramientas de reporte
& nbsp; & nbsp; & nbsp; ¿Cómo permite realmente a sus usuarios acceder a los datos?
& nbsp; & nbsp; & nbsp; • Informes pre-enlatados (simples)
& nbsp; & nbsp; & nbsp; • métodos más dinámicos de acceso de corte y dado

& nbsp; & nbsp; & nbsp; & nbsp; Los datos a los que se accede para informar y analizar, y las herramientas para informar y analizar datos
& nbsp; & nbsp; & nbsp; & nbsp; caer en esta capa Y las diferencias Inmon-Kimball sobre metodología de diseño,
& nbsp; & nbsp; & nbsp; & nbsp; discutido más adelante en el artículo de Wikipedia, tiene que ver con esta capa.

Capa de metadatos (facilita la automatización, organización, etc.)

Rueda la suya (de gama baja)
Por muy poco costo de desembolso, el simple hecho de reconocer la necesidad de las estructuras desnormalizadas puede comprar aquellas que no lo están usando, algunas eficiencias.

Entra en el juego de pelota (se requieren algunos desembolsos)
No es necesario utilizar toda la funcionalidad de una plataforma desde el principio.
IMO, sin embargo, desea estar en una plataforma que sepa que crecerá, y en el entorno de BI altamente competitivo y consolidado, parece ser uno de los cuatro mega-proveedores empresariales (mi opinión)

Microsoft (la plataforma de nuestra firma de 110 empleados)
SAP
Oracle
IBM

& nbsp; & nbsp; BiMarketStateArticle

Mi empresa se encuentra en esta etapa, utilizando algunas de las capacidades ETL ofrecidas por los Servicios de Integración de SQL Server (SSIS) y algunos usos alternativos del código abierto, pero en la práctica la licencia requiere el producto Talend en la capa de acceso a datos " una estructura de informes desnormalizada (implementada completamente en la base de datos básica de SQL Server) y SQL Server Reporting Services (SSRS) para automatizar en gran medida (según su habilidad) la producción de informes preespecificados. Tenga en cuenta que un informe SSRS " informe " es simplemente una configuración / especificación XML (escalable) que se procesa en tiempo de ejecución a través del motor SSRS. Las opciones como exportar a un archivo de Excel son opciones simples.

Compromiso serio (se requiere algún compromiso humano importante)
Tenga en cuenta que aún tenemos que utilizar la minería de datos / segmentación / corte dinámico Capacidades de SQL Server Analysis Services. Estamos trabajando para eso, pero ahora enfocado en mejorar la calidad de la limpieza de nuestros datos en la "capa de acceso a datos".

Espero que esto te ayude a tener una idea de dónde empezar a buscar.

Otros consejos

Pentaho ha creado un conjunto de productos bastante completo. Los productos son " gratuitos " ;, pero deben estar preparados para la venta habitual una vez que haya entregado su información de identificación.

No he tenido la oportunidad de estirarlos realmente, ya que somos una tienda de Microsoft de un extremo triste al otro.

Creo que primero deberías revisar Kimball e Inmon y ver si quieres acercarte a tu almacén de datos de una manera particular. Kimball, en particular, presenta un muy buen marco para el modelado y la construcción del almacén.

Hay una serie de herramientas que intentan realizar el proceso de diseño, implementación y administración / operación de un Almacén de datos y cada una tiene sus puntos fuertes y débiles y, a menudo, puntos de precios muy diferentes. Debajo de las coberturas, siempre estarás mejor si tienes un buen conocimiento de los principios de warsehousing de los campos de Kimball y / o Inmon.

Además de herramientas como Kalido y Wherescape RED (que hacen algo similar en formas muy diferentes), muchas de las plataformas ETL ahora tienen un buen soporte integrado para el trabajo de implementación de los burros: componentes de SCD, etc. y seguimiento de linaje.

Lo mejor es ver todas estas herramientas como para usarlas en manos de usted, el artesano, hacen que algunas cosas fáciles sean aún más fáciles (o incluso triviales), algunas cosas difíciles más fáciles, pero algunas cosas que solo se ponen en su camino. IMHO;) Aprende primero la metodología y los principios y obtén una buena comprensión de ellos, y luego sabrás qué herramientas aplicar desde tu kitbag y cuándo ...

No se ha actualizado en mucho tiempo pero hay un buen paquete de Data Datahousing / ETL Ruby llamado ActiveWarehouse .

Pero vería los productos Pentaho como Nick mencionó en otra respuesta. Debería manejar fácilmente el volumen de datos que tiene y puede proporcionarle más formas de dividir y dividir sus datos de lo que nunca hubiera imaginado.

El mejor marco que puede obtener actualmente es Modelado de anclaje .
Puede parecer bastante complejo debido a su estructura genérica y su capacidad incorporada para historizar datos.
También la técnica de modelado es bastante diferente a la ERD.
Pero termina con el código SQL para generar todos los objetos de base de datos, incluidas las vistas 3NF y:

insertar / actualizar manejado por activadores
consulta cualquier punto / rango en la historia
los desarrolladores de aplicaciones no verán el modelo de anclaje 6NF subyacente.

La tecnología es de código abierto y en este momento es imbatible.

Si tienes una pregunta AM, es posible que desees hacer esa etiqueta modelado de ancla .

Kimball es el método más simple para el almacenamiento de datos.

Utilizamos Informatica para mover datos, pero no hace cosas DW como la indexación por defecto.
Me gusta la idea de Wherescape RED, como una herramienta DW y el uso de servidores vinculados de MS SQL para evitar la necesidad de una herramienta ETL.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow