データウェアハウスフレームワークはありますか?

https://stackoverflow.com/questions/158775

03-07-2019
|

質問

レポートを生成する必要がある mysql データが大量にあります。これはほとんどが履歴データであるため、あまり変更されませんが、その量は軽く 20 ～ 30 ギガバイトに達し、今後も増加することが予想されます。現在、複雑なクエリを実行し、CSV ファイルと Excel ファイルを出力する php スクリプトのコレクションがあります。また、ブックマークされたクエリで phpMyAdmin も使用します。パラメータを変更するには手動で編集します。データの量は増加しており、データにアクセスする必要がある人の数も増加しているため、この状況を改善するために時間を割いています。

先日、データウェアハウジングについて読み始めましたが、これは私がやるべきことに関連する分野のようです。もう読んだいくつかの良い記事そして本も待っています。この種のシステムが何をするのか、何が可能なのかについては理解できたと思います。

データのレポートシステムを作成することは常に ToDo リストに含まれていましたが、最近まで、それは非常にニッチなプログラミングベンチャーになるだろうと考えていました。データウェアハウスが一般的なことであることがわかったので、開発を容易にするために利用できる何らかのレポート/ウェアハウスフレームが必要だと考えています。私なら、レポートなどをスケジュールして電子メールで送信するためのインターフェイスやスクリプトの作成を喜んで省略し、クエリの作成と関係の設定に専念します。

私は主にランプを使ってきましたが、言語やプラットフォームを切り替えることに抵抗はありません。私の 1 回限りのスクリプトはうまく拡張できないため、より堅牢なソリューションが必要です。

では、どこから始めるのが良いでしょうか?

解決

{予算、ビジネスユーティリティ機能、期間} の範囲についていくつかのポイントを説明します。便宜上、リンク先のアーキテクチャの概念化に従ってみましょう。

ウィキペディアデータウェアハウス記事

運用データベース層
データウェアハウスのソースデータ - 1 か所のみのデータ保守用に正規化
データアクセス層
ソースデータを情報アクセス層に変換します。
データを抽出、変換、ウェアハウスにロードするための ETL ツールは、この層に分類されます。
情報アクセス層
• レポートを容易にするデータ構造
ここではデータは管理されません。それは単にソースデータを反映したものにすぎません
したがって、非正規化された構造 (重複しているが系統的に派生したデータを含む)
通常ここで最も効果的です
• レポートツール
実際にユーザーにデータへのアクセスを許可するにはどうすればよいですか
• 事前に作成されたレポート (シンプル)
• より動的なスライスアンドダイスアクセス方式

レポートと分析のためにアクセスされるデータ、およびデータのレポートと分析のためのツール
この層に落ちます。そして、設計方法論に関するインモンとキンボールの違い、
Wikipedia の記事で後ほど説明しますが、これはこの層に関係します。

メタデータ層 (自動化、整理などを促進)

独自のロール (ローエンド)
非常に少ない自己負担コストで、非正規化構造の必要性を認識するだけで、非正規化構造を使用していない構造にある程度の効率を購入できます。

球技に参加する (多少の出費が必要です)
プラットフォームのすべての機能を最初から使用する必要はありません。
ただし、IMO では、成長することがわかっているプラットフォームを利用したいと考えており、競争が激しく統合が進む BI 環境では、エンタープライズメガベンダー 4 社のうちの 1 社と思われます (私の意見)。

Microsoft (従業員 110 人の当社のプラットフォーム)
SAP
オラクル
IBM

BiMarket州記事

私の会社は現段階で、SQL Server Integration Services (SSIS) が提供する ETL 機能の一部とオープンソースの代替使用法を使用していますが、実際には、非正規化されたレポート構造である「データアクセスレイヤー」の Talend 製品のライセンスが必要です。 (基本的な SQL Server データベースに完全に実装されています)、および事前に指定されたレポートの作成を (スキルに基づいて) 大幅に自動化する SQL Server Reporting Services (SSRS)。SSRS の「レポート」は、実行時に SSRS エンジンを介してレンダリングされる (スケーラブルな) XML 構成/仕様にすぎないことに注意してください。Excel ファイルへのエクスポートなどの選択肢は簡単です。

真剣な取り組み (かなりの人的関与が必要)
SQL Server Analysis Servicesのデータマイニング/動的スライシング/ダイシング機能をまだ利用していないことに注意してください。私たちはそれに向かって取り組んでいますが、「データアクセスレイヤー」でのデータクレンジングの品質の向上に焦点を当てています。

これが、どこから探し始めればよいのかを理解するのに役立つことを願っています。

他のヒント

Pentaho は、非常に包括的な製品スイートをまとめました。製品は「無料」ですが、識別情報をフォークすると通常の大量販売に備えます。

マイクロソフトショップである一方の悲しい端からもう一方の端まで、実際にそれらを拡大する機会はありませんでした。

まず、KimballとInmonを調べて、特定の方法でデータウェアハウスにアプローチするかどうかを確認する必要があると思います。特にキンボールは、倉庫のモデリングと構築のための非常に優れたフレームワークを提供しています。

データウェアハウスの設計、実装、管理/運用のプロセスを作成しようとするツールがいくつかあり、それぞれに長所と短所があり、多くの場合、価格が大きく異なります。 KimballやInmonのキャンプの軍需品の原則について十分な知識がある場合、カバーの下で常にベストを尽くします。

KalidoやWherescape REDのようなツール（非常に異なる方法で同様のことを行います）に加えて、多くのETLプラットフォームは、ロバの実装作業（SCDコンポーネントなど、系統追跡）に対して優れた組み込みサポートを備えています。

これらはすべて、職人であるあなたの手で使用されるツールとして見るのが最善です、彼らは特定の簡単なことをさらに簡単に（または些細なことでも）、いくつかの難しいことをより簡単にしますが、彼らが邪魔するものもあります私見;）方法論と原則を最初に学び、それらをよく理解すると、キットバッグからどのツールをいつ適用するかがわかります...

しばらくは更新されていませんが、 ActiveWarehouse 。

しかし、別の答えで言及されたニックのような Pentaho製品をチェックアウトします。持っているデータの量を簡単に処理できるはずで、想像もしていなかったより多くの方法でデータを切り刻むことができます。

現在入手できる最高のフレームワークは、アンカーモデリングです。
一般的な構造とデータを履歴化する組み込み機能のため、非常に複雑に見えるかもしれません。
また、モデリング手法はERDとはまったく異なります。
しかし、3NFビューを含むすべてのdbオブジェクトを生成するSQLコードで終了します。

トリガーによって処理される挿入/更新
履歴内の任意のポイント/範囲を照会
アプリケーション開発者には、基礎となる6NFアンカーモデルは表示されません。

この技術はオープンソースであり、現時点では無敵です。

AMの質問がある場合は、そのタグで質問したい場合があります anchor-modeling 。

Kimballは、データウェアハウジングのより簡単な方法です。

データの移動にはInformaticaを使用しますが、デフォルトではインデックス作成などのDWを行いません。
Wherescape REDは、DWツールとして、MS SQLのリンクサーバーを使用してETLツールの必要性をなくすという考え方が好きです。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow

データ ウェアハウス フレームワークはありますか?

データウェアハウスフレームワークはありますか?