非常に大きなデータセットを保存してクエリする方法（リレーショナルDBを超えて）

https://stackoverflow.com/questions/4742876

13-10-2019
|

質問

現在、非常に大きなデータセット（数十億）からデータを効果的に保存および取得する方法の問題に直面しています。 MySQLを使用しており、システム、OS、RAID、クエリ、インデックスなどを最適化しており、現在進むことを検討しています。

データの問題を解決するためにどのテクノロジーを追求するかについて情報に基づいた決定を下す必要があります。私はHDFSでMAP/Reduceを調査していますが、HBaseについても良いことを聞いています。他にも選択肢があるとも思わずにはいられません。利用可能なテクノロジーの良い比較はありますか、そしてそれぞれのトレードオフは何ですか？

それぞれで共有するリンクがある場合は、それも感謝しています。

解決

それは幅広い問題です。私は道順を与えようとします、そして、それぞれについてあなたはあなたが詳細情報を見るか尋ねることができます。最初のものは...従来のDBです。データが十分に価値がある場合、襲撃や優れたサーバーを持つことができる場合は、Oracleが優れている可能性があります。 TPC-Hは、意思決定サポートクエリの業界標準ベンチマークです。 http://www.tpc.org/tpch/results/tpch_perf_results.asp そして、それは最高のパフォーマンス結果へのリンクです。ご覧のとおり、RDBMはテラバイトのデータにスケーリングできます。
2番目は、HDFS + Map/Reduce + Hiveの形式のHadoopです。 Hiveは、MapReduceの上にあるDataWareHousingソリューションです。データを元の形式で保存し、線形にスケーリングする機能など、いくつかの追加の利点を取得できます。見た目の1つ - 非常に複雑なクエリのインデックス作成と実行。
3番目はMPP -Massive Parralel処理データベースです。それらは数十から数百のノードからスケーラブルであり、豊富なSQLサポートを持っています。例は、Netezza、Greenplum、Asterdata、Verticaです。それらの中で選択することは簡単な作業ではありませんが、より正確な要件を備えているため、実行することもできます。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow