Quelqu'un peut-il s'il vous plaît expliquer l'exploration de données, SSIS, BI, ETL et d'autres technologies connexes?

StackOverflow https://stackoverflow.com/questions/416566

Question

Hier, je parlais avec un collègue au sujet d’une situation dans laquelle il utilisait SSIS (ou quelque chose du genre) pour faire quelque chose de vraiment cool avec un paquet SSIS dans lequel il passait sous un nom comme "Dr. Reginald Williams, PhD. & Quot; et sur la base d’un schéma de pondération, le système était suffisamment intelligent pour comprendre comment le distinguer et le stocker dans la base de données sous le nom "Salutation- Prénom - Nom de famille - Suffixe". Il a jeté quelques mots à la mode tels que BI, SSIS, ETL et Data mining. Je voulais vraiment plus d'informations, mais je ne savais même pas par où commencer.

Je suis développeur .Net et connaissant parfaitement C #, Vb.Net, WPF, etc., mais je n'ai aucune idée de la nature de ces technologies, de la façon de les ajouter à mes compétences et de déterminer si oui ou non c'est quelque chose sur lequel je devrais vraiment me concentrer. Toute direction serait utile.

Était-ce utile?

La solution

SSIS == SQL Server Integration Services et qu’il s’agit d’un outil de transformation et de chargement d’extractions (ETL), il s’agit d’une implémentation bien supérieure à celle de Data Transformation Services ou DTS dans SQL7, époque SQL2K. C’est un excellent outil pour exprimer les processus de flux de travail dans lesquels les données sont déplacées d’un point A à un point B (et c et d, etc.) et subissent des modifications par le biais de ce processus, telles que la consolidation vers une conception dénormalisée ou le nettoyage des données.

La BI ou la Business Intelligence est un surnom pour toute une catégorie du monde de la technologie et c’est un endroit formidable à être en ce moment. Les compétences en BI sont très précieuses et difficiles à trouver, notamment parce qu’il est difficile de recréer un véritable cas de BI dans un laboratoire, de sorte que l’enseignement se fait presque toujours dans des situations réelles.

À partir d'un niveau élevé, les projets BI impliquent généralement un point final de reporting. En tant que développeurs, nous avons souvent l'habitude d'écrire des rapports transactionnels, tels que les détails d'un bon de commande, mais la BI peut intégrer des rapports très généraux couvrant les tendances de vente des produits sur des décennies et traitant des centaines de millions d'enregistrements. La manière dont nous concevons les bases de données pour les applications n’est pas idéale pour ce type de reporting; d’autres outils et technologies ont donc été inventés et sont utilisés dans l’espace décisionnel. Ce sont des choses comme les cubes que vous entendez souvent appelés cubes OLAP. Les cubes OLAP proviennent généralement d'un entrepôt de données qui n'est rien de plus qu'une autre base de données - mais les entrepôts classiques contiennent des données provenant de plusieurs bases de données, et souvent des dizaines d'autres. Votre application d'inventaire, vos achats, vos ressources humaines et bien d'autres encore contiennent des fragments de données qui donnent une image complète de l'entreprise. Un architecte BI utilisera un système similaire à SSIS pour extraire les données de tous ces systèmes, puis les masser. et stockez-le dans l’entrepôt de données conçu avec un type de conception différent, mieux adapté aux rapports. Une fois dans l'entrepôt, il utilisera Analysis Services pour créer des cubes sur ces données et quelque chose comme Reporting Services pour vous afficher des rapports sur ces données.

Éditer: désolé, j'ai oublié le Data Mining, c’est un autre terme non spécifique qui décrit un concept ou un processus et non un outil. Dans un exemple simple, il s’agit d’une approche méthodique pour identifier des modèles de données. Auparavant, une bonne analyse commerciale cherchait des tendances dans les données, mais avec des bases de données modernes, vous parlez de jeux de données trop volumineux pour pouvoir les analyser manuellement. L'exploration de données vous permet de demander à l'ordinateur de les analyser et d'identifier les modèles qui vous intéressent .

L’espoir que cela aide

Autres conseils

Ce que votre collègue a fait pourrait être mieux décrit comme un "analyse intelligente". d'une chaîne. Cela pourrait être fait à plusieurs niveaux de sophistication, par exemple, en utilisant des modèles statistiques pour vous donner la probabilité que "Dr." est une salutation et non un prénom. Ou il pourrait simplement utiliser une simple liste de références contenant les salutations communes, auquel cas il s’agirait simplement d’un code de procédure normal, rien de plus.

SSIS est l'abréviation de SQL Server Integration Services. Il s’agit essentiellement de DTS sur des stéroïdes; certaines personnes l'aiment et d'autres le détestent. Il serait délicat d'utiliser cela seul pour faire le genre de chose dont vous parlez; c'est principalement juste pour prendre des données de différentes sources et les combiner, les transformer et les charger ailleurs. Il peut faire certaines choses astucieuses, dont beaucoup ont tendance à ressembler à l'exploration de données, mais il s'agit en définitive d'un outil de production permettant de stocker des données dans une direction ou une autre. Il n’est pas particulièrement respecté dans la communauté de l’exploration de données.

Le Data Mining est une discipline académique complète, axée sur l'utilisation d'une quantité (généralement importante) de données pour prédire les réponses futures ou pour mieux comprendre les tendances des données existantes. C'est certainement un excellent domaine dans lequel entrer, mais ce n'est pas quelque chose que vous pouvez tout simplement faire sans une étude intensive des mathématiques et des algorithmes. Un bon livre sur le sujet est celui-ci .

"Informatique décisionnelle" est vraiment plus un mot à la mode qu'une technologie spécifique, et peut signifier différentes choses pour différentes personnes. À la base, l'idée suggère de faire des choses moins stupides avec des données d'entreprise et se réfère généralement à l'analyse des tendances au fil du temps, en utilisant souvent OLAP. Il peut également inclure des algorithmes d'exploration de données ou d'IA, mais comme il n'y a pas de définition rigoureuse, quiconque voudra vous vendre quelque chose vous dira qu'il offre "l'intelligence d'affaires" et espère que vous n'allez pas creuser plus loin.

SSIS est Services d’intégration SQL Server et est utile pour effectuer l’ETL (extraire, transformer et Load) qui constituent le premier niveau de nombreuses solutions d'entreposage de données / intelligence économique qui intègrent des données dans des modèles dimensionnels faciles à utiliser. SSIS est également utile pour les petits projets car il constitue un moyen pratique de charger des données héritées ou des données provenant d’autres référentiels ou fichiers.

L'exploration de données implique généralement l'utilisation des données des sources intégrées pour déduire des informations qui ne seraient pas être évidentes à partir de données transactionnelles (via l’intégration de plusieurs sources donnant plus de "dimensions" aux données.

La BI étant un sujet important, il est possible qu'elle ne soit pas un sujet de préoccupation sauf si vous souhaitez entrer dans ce domaine, mais SSIS peut être utile pour des projets plus petits et vaut la peine d'être étudié dans tous les cas.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top