Snowflake ou étoile pour la conception de la base de données OLAP

https://stackoverflow.com/questions/19846208

29-07-2022
|

Question

J'utilise Saiku 2.5 et je ne sais pas comment modéliser la situation suivante:

Didiments:

Catégorie (~ 20 lignes)
Sous-catégorie (~ 100 lignes)
SubSubCategory (~ 1200 lignes)
SubSubSubCategory (~ 8000 lignes)
Autre 1 (~ 100000 lignes)
Autre2 (~ 50000 rangées)
Autre3 (~ 500 rangées)
Autre4 (~ 500 rangées)
Autre5 (~ 200 rangées)
Autre6 (~ 200 rangées)
Autre7 (~ 100 lignes)
Autre8 (~ 10 lignes)

Mesuremns:

Faits (~ 20000000 lignes)

Des relations

Le fait a d'autres [ d
Le fait a subsubSubCategory
SubSubSubCategory a SubsubCategory
SubSubCategory a une sous-catégorie
La sous-catégorie a une catégorie

J'aimerais savoir s'il est meilleur en termes de performances, de dés-normaliser toutes les catégories en une seule table ou de la laisser telle qu'elle est. Chaque table "de type catégorie" a un varchar (8) et deux textes ().

La solution

J'aimerais savoir s'il est meilleur en termes de performances, de dés-normaliser toutes les catégories en une seule table ou de la laisser telle qu'elle est.

Vous optimisez un entrepôt de données pour les performances de lecture, donc j'opterais pour dénormaliser les tables de catégorie. Vous parlez environ 8 000 lignes ou une page et demie dans la plupart des bases de données relationnelles. Vous pouvez garder ce tableau en mémoire.

On dirait qu'un schéma étoilé fonctionnerait pour vous. Si les autres dimensions ont des relations, alors un schéma de flocon de neige serait justifié.

Autres conseils

Vos catégories doivent être dans une seule table, car les jointures de lignes 8K sont faciles.

Les autres doivent être divisés dans quelques tables. Cela permettra à Mondrian d'effectuer la jointure à des niveaux élevés (basse cardinalité) lorsque cela est possible et ainsi de mieux.

Mondrian joue bien avec les deux scénarios.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow