Может кто-нибудь объяснить, что такое интеллектуальный анализ данных, SSIS, BI, ETL и другие связанные технологии?

StackOverflow https://stackoverflow.com/questions/416566

Вопрос

Вчера я разговаривал с коллегой по поводу ситуации, когда он использовал SSIS (или что-то в этом роде), чтобы сделать что-то действительно классное с пакетом SSIS, когда он передал имя, подобное " Dr. Реджинальд Уильямс, доктор философии. и основываясь на некоторой весовой схеме, система была достаточно умна, чтобы понять, как ее токенизировать и сохранить в базе данных как «Salutation - Имя - Фамилия - Суффикс». Он выкинул несколько модных слов, таких как BI, SSIS, ETL и Data mining. Я действительно хотел больше информации, но даже не знал, с чего начать.

Я являюсь разработчиком .Net и хорошо разбираюсь в C #, Vb.Net, WPF и т. д., но я понятия не имею, что это за технологии, как их добавить в мой набор навыков и нужно ли это то, на чем я действительно должен сосредоточиться. Было бы полезно любое направление.

Это было полезно?

Решение

SSIS == Службы интеграции SQL Server, и это инструмент извлечения и преобразования (ETL), намного превосходящий реализацию по сравнению с службами преобразования данных или DTS в эпоху SQL7, SQL2K. Это отличный инструмент для выражения процессов рабочих процессов, в которых данные перемещаются из точки A в точку B (и c, d и т. Д.) И претерпевают изменения в ходе этого процесса, такие как консолидация в денормализованный дизайн или очистка данных.

BI или Business Intelligence - это прозвище для всей категории в мире технологий, и это прекрасное место, чтобы быть прямо сейчас. Навыки BI очень ценны и их трудно найти, одна из причин, по которой дело обстоит так, заключается в том, что трудно воссоздать истинный пример BI в лаборатории, поэтому обучение почти всегда проводится в реальной ситуации.

На высоком уровне BI-проекты обычно включают конечную точку отчетности. Часто, как разработчики, мы привыкли к написанию транзакционных отчетов, таких как детали заказа на поставку, но BI может получать очень широкие отчеты, которые охватывают тенденции продаж продуктов за десятилетия и имеют дело с сотнями миллионов записей. То, как мы проектируем базы данных для приложений, не идеально подходит для такого рода отчетности, поэтому были разработаны и использованы другие инструменты и технологии в пространстве BI. Такие вещи, как кубы, которые вы часто слышите, называются кубами OLAP. Кубы OLAP обычно происходят из хранилища данных, которое представляет собой не что иное, как другую базу данных, но типичные хранилища содержат данные, полученные из более чем одной, и часто десятки других баз данных приложений. Ваше приложение для инвентаризации, приложение для закупок, приложение для управления персоналом и целый ряд других содержат кусочки данных, которые создают полную картину бизнеса. Архитектор BI будет использовать что-то вроде SSIS, чтобы извлекать данные из всех этих систем, массажировать их. и сохраните его в хранилище данных, которое разработано с другим дизайном, лучше для отчетности. Когда он попадет в хранилище, он будет использовать службы Analysis для создания кубов на этих данных и что-то вроде служб Reporting Services для отображения отчетов по этим данным.

Изменить: извините, забыл Data Mining, это еще один неконкретный термин, который описывает и концепцию, или процесс, а не столько инструмент. В простом примере это методический подход к выявлению закономерностей в данных. В прошлом хороший бизнес-анализ просматривал данные на предмет тенденций, но в современных базах данных вы говорите о наборах данных, которые слишком велики, чтобы их можно было вручную прочесывать - интеллектуальный анализ данных позволяет вам дать компьютеру команду прочесывать эти данные и выявлять интересующие их шаблоны. .

Надеюсь, это поможет

Другие советы

То, что сделал ваш коллега, может быть лучше описано как «интеллектуальный анализ»; строки. Это может быть сделано на многих уровнях сложности - например, с помощью статистических моделей, чтобы дать вам вероятность того, что «доктор» это приветствие, а не имя. Или он мог бы просто использовать простой список общих приветствий, в этом случае это просто обычный процедурный код, не более того.

SSIS - это сокращение от служб интеграции SQL Server. Это в основном DTS на стероидах; некоторые люди любят это, а некоторые ненавидят. Было бы сложно использовать это само по себе для того, о чем вы говорите; в основном это просто для того, чтобы взять данные из различных источников и объединить их, преобразовать и загрузить в другое место. Он может делать некоторые изящные вещи, многие из которых, как правило, похожи на интеллектуальный анализ данных, но в конечном итоге это производственный инструмент для объединения данных в ту или иную сторону. Это не особенно уважается в сообществе интеллектуального анализа данных.

Data Mining - это целая академическая дисциплина, ориентированная на использование некоторого (как правило, большого) количества данных для прогнозирования будущих ответов или лучшего понимания закономерностей в существующих данных. Это определенно отличная область, в которую вы можете войти, но не то, что вы можете просто взять и обойтись без какого-либо интенсивного изучения математики и алгоритмов. Хорошая книга на эту тему - эта .

" Business Intelligence " на самом деле больше модного слова, чем конкретной технологии, и может означать разные вещи для разных людей. По сути, идея заключается в том, чтобы делать бизнес-данные менее глупыми и, как правило, относится к анализу тенденций во времени, часто с использованием OLAP. Он также может включать в себя алгоритмы интеллектуального анализа данных или AI, но, поскольку нет точного определения, любой, кто захочет продать вам что-либо, скажет вам, что предлагает «Business Intelligence», и надеется, что вы больше не будете копать.

SSIS представляет собой службы интеграции с SQL Server и полезен для выполнения ETL (извлечения, преобразования). и Load), которые являются интерфейсом для многих хранилищ данных / бизнес-аналитики решений, интегрирующих данные в простые в использовании размерные модели. Служба SSIS также полезна для небольших проектов в качестве удобного способа загрузки устаревших данных или данных из других хранилищ или файлов.

Анализ данных обычно подразумевает использование данных из интегрированных источников для вывода информации, которая не быть очевидным из транзакционных данных (через интеграцию нескольких источников, дающих больше «измерений» данным.

BI - это огромная тема, поэтому на ней, возможно, не стоит сосредоточиться, если только вы не захотите заняться этим, но SSIS может быть полезен для небольших проектов, и о нем стоит узнать в любом случае.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top