Существуют ли какие-либо платформы для хранения данных?

StackOverflow https://stackoverflow.com/questions/158775

Вопрос

У меня есть много данных MySQL, из которых мне нужно создавать отчеты.В основном это исторические данные, поэтому они не будут сильно меняться, но их объем легко достигает 20-30 гигабайт, и ожидается, что он будет расти.В настоящее время у меня есть коллекция php-скриптов, которые будут выполнять некоторые сложные запросы и выводить файлы csv и Excel.Я также использую phpMyAdmin с запросами с закладками.Я вручную редактирую их, чтобы изменить параметры.Объем данных растет, и число людей, которым нужен доступ к ним, также растет, поэтому я выделяю время, чтобы улучшить эту ситуацию.

На днях я начал читать о хранилищах данных, и мне кажется, что это область, которая относится к тому, что мне нужно сделать.Я читал некоторые хорошо Статьи и я даже жду выхода книги.Я думаю, что начинаю понимать, что делают подобные системы и что возможно.

Создание системы отчетности для моих данных всегда было в списке задач, но до недавнего времени я полагал, что это будет узкоспециализированное предприятие по программированию.Поскольку теперь я знаю, что хранилище данных - это обычное дело, я полагаю, что должны быть какие-то доступные фреймы отчетности / складирования, облегчающие разработку.Я бы с удовольствием отказался от написания интерфейсов и скриптов, чтобы планировать отчеты по электронной почте и тому подобное, и придерживался бы написания запросов и настройки отношений.

В основном я был ламповым парнем, но я не против переключения языков или платформ.Мне просто нужно более надежное решение, так как мои одноразовые скрипты плохо масштабируются.

Итак, с чего бы лучше начать?

Это было полезно?

Решение

Я рассмотрю несколько моментов по спектру {бюджет, функция полезности для бизнеса, временные рамки}.Для удобства давайте проследим за концептуализацией архитектуры, на которую вы ссылались по адресу

    Статья WikipediaDataWarehouseArticle

  • Уровень операционной базы данных
    Исходные данные для хранилища данных - нормализованы для хранения данных только в одном месте

  • Уровень доступа к данным
    Преобразование ваших исходных данных в ваш информационный уровень доступа.
    Инструменты ETL для извлечения, преобразования, загрузки данных в хранилище попадают в этот слой.

  • Информационный уровень доступа
      • Облегчающая создание отчетов Структура данных
          Данные здесь не хранятся.Это всего лишь отражение ваших исходных данных
          Следовательно, денормализованные структуры (содержащие дублирующиеся, но систематически производные данные)
          обычно они наиболее эффективны здесь
      • Инструменты отчетности
          Как вы на самом деле разрешаете своим пользователям доступ к данным
          • предварительно подготовленные отчеты (простые)
          • более динамичные методы доступа "по частям"

        Данные, к которым осуществляется доступ для составления отчетов и анализа, а также инструменты для составления отчетов и анализа данных
        попадите в этот слой.И разногласия между Инмоном и Кимбаллом по поводу методологии проектирования,
        обсуждаемые далее в статье Википедии, имеют отношение к этому слою.

  • Уровень метаданных (облегчает автоматизацию, организацию и т.д.)

Сверните свой собственный (бюджетный)
За очень небольшие собственные средства простое признание необходимости денормализованных структур может обеспечить тем, кто их не использует, некоторую эффективность

Включайся в игру с мячом (требуются некоторые расходы)
Вам не нужно сразу использовать все функциональные возможности платформы.
IMO, однако, вы хотите работать на платформе, которая, как вы знаете, будет расти, и в высококонкурентной и консолидирующей среде BI, которая, по-видимому, является одним из четырех корпоративных мегавендоров (мое мнение)

  • Microsoft (платформа нашей фирмы, насчитывающей 110 сотрудников)
  • СОК
  • Oracle
  • IBM

    Статья о бимаркетстате

Моя фирма находится на данном этапе, используя некоторые возможности ETL, предлагаемые службами интеграции SQL Server (SSIS), и некоторое альтернативное использование открытого исходного кода, но на практике для лицензии требуется продукт Talend на "Уровне доступа к данным", денормализованная структура отчетности (полностью реализована в базовой базе данных SQL Server) и службы отчетов SQL Server (SSRS), чтобы в значительной степени автоматизировать (в зависимости от ваших навыков) создание заранее заданных отчетов.Обратите внимание, что SSRS "отчет" - это просто (масштабируемая) XML-конфигурация / спецификация, которая визуализируется во время выполнения с помощью механизма SSRS.Такие варианты, как экспорт в файл Excel, являются простыми.

Серьезное обязательство (требуется некоторая значительная приверженность со стороны человека)
Обратите внимание выше, что нам еще предстоит использовать интеллектуальный анализ данных / динамическую нарезку возможности служб SQL Server Analysis Services.Мы работаем в этом направлении, но сейчас сосредоточены на улучшении качества очистки наших данных на "Уровне доступа к данным".

Я надеюсь, это поможет вам получить представление о том, с чего начать поиски.

Другие советы

Пентахо собрал довольно полный набор продуктов.Продукты предоставляются "бесплатно", но будьте готовы к обычным массовым распродажам, как только вы раскошелитесь на свои идентификационные данные.

У меня не было возможности по-настоящему расширить их, поскольку мы являемся магазином Microsoft, от одного печального конца до другого.

Я думаю, вам следует сначала ознакомиться с Kimball и Inmon и посмотреть, хотите ли вы подойти к своему хранилищу данных определенным образом.Кимбалл, в частности, предлагает очень хорошую основу для моделирования и строительства склада.

Существует ряд инструментов, которые пытаются упростить процесс проектирования, внедрения и управления хранилищем данных, и у каждого из них есть свои сильные и слабые стороны и часто сильно отличающиеся ценовые показатели.Под одеялом вам всегда будет лучше, если вы хорошо знаете принципы ведения войны в лагерях Кимболл и / или Инмон.

Наряду с такими инструментами, как Kalido и Wherescape RED (которые делают подобное совершенно по-разному), многие платформы ETL теперь имеют хорошую встроенную поддержку для ослиной работы по внедрению - компонентов SCD и т.д. И отслеживания происхождения.

Лучше всего рассматривать все это как инструменты, которые будут использоваться в руках вас, мастера, они делают некоторые простые вещи еще проще (или даже тривиальнее), некоторые сложные вещи проще, но некоторым они просто мешают, ИМХО ;) Сначала изучите методологию и принципы и получите хорошее представление о них, а затем вы будете знать, какие инструменты из вашего набора следует применять и когда...

Он давно не обновлялся, но есть хороший пакет Data Warehousing / ETL Ruby под названием Действующее складское помещение.

Но я бы хотел проверить Продукты Pentaho как упоминал Ник в другом ответе.Он должен легко обрабатывать имеющийся у вас объем данных и может предоставить вам больше способов разбиения ваших данных на части, чем вы могли себе представить.

Лучший фреймворк, который вы можете получить в настоящее время, - это Моделирование Якоря.
Это может показаться довольно сложным из-за своей общей структуры и встроенной возможности архивировать данные.
Кроме того, техника моделирования сильно отличается от ERD.
Но в итоге вы получаете sql-код для генерации всех объектов БД, включая представления 3NF и:

  • вставка / обновление обрабатывается триггерами
  • запрос любой точки / диапазона в истории
  • вы, разработчики приложений, не увидите базовую модель привязки 6NF.

Технология с открытым исходным кодом и на данный момент является непревзойденной.

Если у вас есть вопрос, который вы можете задать по этому тегу .

Кимбалл - это более простой метод хранения данных.

Мы используем Informatica для перемещения данных, но она не выполняет такие функции DW, как индексация по умолчанию.
Мне нравится идея Wherescape RED как инструмента DW и использования связанных серверов MS SQL для устранения необходимости в инструменте ETL.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top