Existe-t-il des infrastructures d'entrepôt de données?

https://stackoverflow.com/questions/158775

03-07-2019
|

Question

J'ai besoin de beaucoup de données mysql pour générer des rapports. Il s’agit essentiellement de données historiques, ce qui ne changera donc pas grand-chose, mais il pèse facilement entre 20 et 30 Go et devrait s’accroître. J'ai actuellement une collection de scripts php qui effectuera des requêtes complexes et produira des fichiers csv et excel. J'utilise aussi phpMyAdmin avec les requêtes marquées d'un signet. Je les édite manuellement pour changer les paramètres. La quantité de données augmente et le nombre de personnes ayant besoin d'y accéder augmente également, alors je prends le temps d'améliorer cette situation.

J’ai commencé à lire sur l’entreposage de données l’autre jour et j’ai eu l’impression que c’était un domaine en rapport avec ce que je devais faire. J'ai lu des certains bien articles et attend même un livre. Je pense avoir une idée de ce que ces systèmes font et de ce qui est possible.

La création d'un système de rapport pour mes données a toujours été une liste de tâches, mais jusqu'à récemment, je pensais que ce serait une entreprise de programmation hautement spécialisée. Étant donné que je sais maintenant que l’entreposage de données est une chose courante, je suppose qu’il doit exister une sorte de cadre de rapport / d’entreposage disponible pour faciliter le développement. J'oublierais volontiers l'écriture d'interfaces et de scripts pour planifier et envoyer des rapports par courrier électronique, etc., et m'en tenir à l'écriture de requêtes et à la configuration de relations.

J'ai surtout été un gars de la lampe, mais je ne suis pas au-dessus de changer de langue ou de plateforme. J'ai juste besoin d'une solution plus robuste, car mes scripts uniques ne s'adaptent pas bien.

Alors, où est le bon endroit pour commencer?

La solution

Je vais aborder quelques points concernant le spectre {budget, fonction d’utilité commerciale, calendrier}. Pour plus de commodité, suivons la conceptualisation de l’architecture à laquelle vous avez lié à

& nbsp; & nbsp; WikipediaDataWarehouseArticle

Couche de base de données opérationnelle
Les données source de l'entrepôt de données - Normalisées pour la maintenance de données In One Place Only
Couche d'accès aux données
La transformation de vos données source en couche d'accès à l'information.
Les outils ETL permettant d'extraire, de transformer, de charger des données dans le magasin se trouvent dans cette couche.
Couche d'accès informationnelle
& nbsp; & # 8226; Structure de données facilitant les rapports
& nbsp; & nbsp; & nbsp; Les données ne sont pas conservées ici. C’est simplement un reflet de vos données source
& nbsp; & nbsp; & nbsp; Par conséquent, les structures dénormalisées (contenant des données dupliquées mais systématiquement dérivées)
& nbsp; & nbsp; & nbsp; sont généralement les plus efficaces ici
& nbsp; & # 8226; Outils de reporting
& nbsp; & nbsp; & nbsp; Comment autorisez-vous réellement vos utilisateurs à accéder aux données?
& nbsp; & nbsp; & nbsp; & # 8226; rapports pré-conservés (simples)
& nbsp; & nbsp; & nbsp; & # 8226; méthodes plus dynamiques d'accès par tranches et dés

& nbsp; & nbsp; & nbsp; & nbsp; Les données consultées pour le reporting et l'analyse et les outils pour le reporting et l'analyse des données
& nbsp; & nbsp; & nbsp; & nbsp; tomber dans cette couche. Et les différences Inmon-Kimball sur la méthodologie de conception,
& nbsp; & nbsp; & nbsp; & nbsp; discuté plus loin dans l’article de Wikipedia, concerne cette couche.

Couche de métadonnées (facilite l’automatisation, l’organisation, etc.)

Rouler soi-même (bas de gamme)
Pour très peu de frais à la charge, le simple fait de reconnaître le besoin de structures dénormalisées peut permettre à ceux qui ne l'utilisent pas de gagner en efficacité

Entrez dans le match (certaines dépenses sont obligatoires)
Vous n'avez pas besoin d'utiliser toutes les fonctionnalités d'une plateforme dès le départ.
IMO, cependant, vous souhaitez être sur une plate-forme dont vous savez qu'il va se développer et dans l'environnement de BI hautement compétitif et en pleine consolidation, qui semble être l'un des quatre méga-vendeurs d'entreprise (mon avis)

Microsoft (la plate-forme de notre cabinet de 110 employés)
SAP
Oracle
IBM

& nbsp; & nbsp;

À ce stade, mon entreprise utilise certaines des fonctionnalités ETL offertes par SSIS (SQL Server Integration Services) et d'autres utilisations de l'open source, mais dans la pratique, la licence nécessitant le produit Talend dans la "couche d'accès aux données", une structure de rapport dénormalisée (entièrement implémentée dans la base de données SQL Server de base) et SQL Server Reporting Services (SSRS) pour automatiser en grande partie (en fonction de vos compétences) la production de rapports prédéfinis. Notez qu'un rapport SSRS " " est simplement une configuration / spécification XML (évolutive) qui est rendue au moment de l'exécution via le moteur SSRS. Les choix tels que l'exportation vers un fichier Excel sont simples.

Engagement sérieux (un engagement humain important est requis)
Notez ci-dessus que nous n'avons pas encore utilisé le data mining / le slicing / dicing dynamique fonctionnalités de SQL Server Analysis Services. Nous travaillons à cela, mais nous nous concentrons maintenant sur l'amélioration de la qualité de notre nettoyage des données dans la "couche d'accès aux données".

J'espère que cela vous aidera à savoir par où commencer.

Autres conseils

Pentaho a mis au point une suite complète de produits. Les produits sont "gratuits", mais soyez prêt pour la vente lourde habituelle une fois que vous aurez fourni vos informations d'identification.

Je n'ai pas encore eu la chance de les étirer car nous sommes un magasin Microsoft d'un bout à l'autre triste.

Je pense que vous devriez d’abord vérifier Kimball et Inmon et voir si vous souhaitez aborder votre entrepôt de données d’une manière particulière. Kimball, en particulier, présente un très bon cadre pour la modélisation et la construction de l’entrepôt.

Il existe un certain nombre d’outils qui tentent de concevoir, de mettre en œuvre et de gérer / exploiter un entrepôt de données. Ils ont chacun leurs forces et leurs faiblesses et leurs prix souvent très différents. Sous les couvertures, vous serez toujours mieux loti si vous connaissez bien les principes de warsehousing des camps de Kimball et / ou d'Inmon.

En plus d’outils comme Kalido et Wherescape RED (qui font la même chose de façons très différentes), de nombreuses plates-formes ETL disposent désormais d’un support intégré pour le travail de mise en œuvre - composants SCD, etc. - et suivi de lignage.

Il est préférable de considérer tous ces éléments comme des outils à utiliser entre vos mains, l’artisan, ils facilitent encore certaines choses faciles (ou même triviales), certaines choses difficiles, mais certaines choses qu’ils ont IMHO;) Apprenez d’abord la méthodologie et les principes et acquérez-vous une bonne compréhension de ceux-ci. Vous saurez ensuite quels outils appliquer de votre kitbag et quand ...

Il n’a pas été mis à jour depuis longtemps, mais il existe un paquet Data Warehousing / ETL Ruby appelé ActiveWarehouse .

Mais je voudrais vérifier les produits Pentaho comme Nick l'a mentionné dans une autre réponse. Il doit facilement gérer le volume de données dont vous disposez et peut vous fournir plus de moyens de découper vos données que vous n'auriez jamais imaginé.

Le meilleur cadre que vous puissiez obtenir actuellement est la la modélisation d'ancrage .
Cela peut paraître assez complexe en raison de sa structure générique et de sa capacité intégrée d'historisation des données.
La technique de modélisation est également très différente de celle de la DRE.
Mais vous vous retrouvez avec du code SQL pour générer tous les objets de base de données, y compris les vues 3NF et:

insertion / mise à jour gérée par des déclencheurs
interroger n'importe quel point / intervalle de l'historique
vos développeurs d'applications ne verront pas le modèle d'ancrage 6NF sous-jacent.

La technologie est à source ouverte et est pour le moment imbattable.

Si vous avez une question AM, vous pouvez poser la question sur cette balise anchor-modelling .

Kimball est la méthode la plus simple pour l’entreposage de données.

Nous utilisons Informatica pour déplacer des données, mais il ne fait pas les choses DW comme l'indexation par défaut.
J'aime l'idée de Wherescape RED, en tant qu'outil DW et utilisant les serveurs liés de MS SQL pour éviter le recours à un outil ETL.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow