ビジネスインテリジェンスの設計上の考慮事項のHadoopの評価と比較

https://stackoverflow.com/questions/6395495

29-10-2019
|

質問

データウェアハウジングとビジネスインテリジェンスのさまざまなテクノロジーを検討しており、Hadoopと呼ばれるこの急進的なツールに出くわしています。 Hadoopは、BIの目的のために正確に構築されているようには見えませんが、この分野に可能性があるという参照があります。（ http://www.infoworld.com/d/data-explosion/hadoop-pitched-business-intelligence-488).

私がインターネットから持っている情報がほとんどないとしても、私の腸は、Hadoopが従来のBIソリューションの分野で破壊的な技術になる可能性があることを教えてくれます。このトピックに関する情報は本当にまばらな情報があるので、従来のバックエンドBIインフラストラクチャと比較して、BIツールとしてのHadoopの可能性について、ここでグルの考えをすべて収集したかったのです。 Oracle Exadata、Verticaなど. 。まず第一に、私は次の質問をしたいと思います -

設計上の考慮事項 - HadoopでBIソリューションを設計することは、従来のツールとどのように異なりますか？ Hadoopでスキーマを作成できないと読んだので、違うはずです。また、大きな利点は、HadoopのETLツールの完全な排除であることを読みました（これは本当ですか？）BIソリューションを取得するにはHadoop + Pig + Mahoutが必要ですか？

ありがとうございます。それでは、お元気で！

編集 - 複数の質問に分解します。私は最もインプだと思うものから始めます。

解決

Hadoopは、BIソリューションの一部になるための素晴らしいツールです。それ自体は、BIソリューションではありません。 Hadoopが行うことは、data_aを取得し、Data_Bを出力することです。 BIに必要なものは何でも、有用な形式ではないものは、MapReduceを使用して処理でき、有用な形式のデータを出力できます。 CSV、Hive、HBase、MSSQLなど、データの表示に使用されるものであれ。

HadoopはETLツールであるはずだと思います。それが私たちがそれを使っているものです。ログファイルのギグを1時間ごとに処理し、Hiveに保存し、MSSQLサーバーにロードされ、視覚化レイヤーを介して表示される毎日の集約を行います。

私が走っている主要な設計上の考慮事項は次のとおりです。
- データの柔軟性： ユーザーに事前に凝集したデータを表示するか、クエリを調整して希望するデータを柔軟に調整してもらいたいですか？
- スピード： ユーザーにデータを待ってもらいたいですか？ハイブ（たとえば）は遅いです。かなり小さなデータセットであっても、結果を生成するのに数分かかります。データが大きくなるほど、結果を生成するのに時間がかかります。
- 視覚化： どのような視覚化を使用したいですか？たくさんのピースをカスタムビルドしたり、棚から何かを使用したりできますか？視覚化にはどのような抑制と柔軟性が必要ですか？視覚化はどの程度柔軟で変更可能ですか？

Hth

アップデート： 視覚化の欠如について尋ねる @bhatのコメントへの回答として...
HBaseに保存されているデータを効果的に利用できるようにする視覚化ツールがないことは、ソリューションの再評価の主要な要因でした。生データをHiveに保存し、データを事前に凝集し、HBaseを保存しました。これを利用するには、カスタムコネクタ（この部分を実行した）と視覚化レイヤーを作成する必要がありました。私たちは、私たちが生産できるものと市販されているものを見て、商業的なルートに行きました。
私たちはまだHadoopをWeblogsを処理するためのETLツールとして使用しています。それは素晴らしいことです。 ETL'D生データを、デザインのHIVEとHBASEの両方に取って代わる商用ビッグデータデータベースに送信するだけです。

Hadoopは、MSSQLやその他のデータウェアハウスストレージと実際には比較されません。 Hadoopはストレージ（HDFSを無視する）を実行しません。データの処理は行われます。 MapReduceを実行する（Hiveが行う）は、MSSQL（またはそのような）よりも遅くなるでしょう。

他のヒント

Hadoopは、ファクトテーブルを表す可能性のある巨大なファイルを保存するのに非常に適しています。これらのテーブルは、テーブルを表す個々のファイルを別々のディレクトリに配置することで分割できます。 Hiveはそのようなファイル構造を理解し、パーティション化されたテーブルのようにそれらをクエリすることができます。 Hiveを介してSQLクエリの形でHadoopデータにBIの質問をフレーズすることはできますが、時折MapReduceのジョブを書き込み、実行する必要があります。

ビジネスの観点からは、価値の低いデータがたくさんある場合は、Hadoopを考慮する必要があります。 RDBMS / MPPソリューションが費用対効果がない場合は多くの場合があります。また、データが構造化されていない場合は、Hadoopを深刻なオプションと見なす必要があります（たとえばHTMLS）。

ビッグデータ / HadoopのBIツールの比較マトリックスを作成していますhttp://hadoopilluminate.com/hadoop_book/bi_tools_for_hadoop.html

それは進行中の作業であり、あらゆる入力が大好きです。

（免責事項：私はこのオンラインブックの著者です）

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow