質問

現在、Hadoop などの Map/Reduce ソリューションの上に、データ ウェアハウジング/クエリ インフラストラクチャを構築することを検討しています。

しかし、すべての M/R 作業は、RDBMS 担当者が過去 20 年間に並列 SQL データベースを使用して解決してきたことを繰り返しているだけではないかと思いました。並列 SQL 実装は、M/R と同様に、ノード間で読み取りと書き込みを拡張しますが、さらに、通常のデータベース (SQL、既存の統合ライブラリなど) の機能がすでに含まれています。

問題は:それらの企業の顧客がオンラインで多くの投稿をしているようには見えません。それで、ここにいる誰かがその種のソリューションの経験があり、洞察やリンクを提供してもらえますか?

役に立ちましたか?

解決

私はネティーザとのHadoopを使用しています。とにInfobright、コラムデータベースの秒針の知識を持っています。

ネティーザは、コストと利益の両方を持つ真のデータベース及び用具ACID特性です。ネティーザは、TwinFinの新しいアーキテクチャとその表データ上で実行することを可能にする複数のM / Rコードに向かって移動しています。アプライアンスの以前のバージョンでは、彼らは、ユーザー定義関数や集計をサポート。 SPU上でLinuxを実行し、Intelプロセッサを使用する新しいバージョンでは、ドアは、データへのより多くのカスタムコードの近くを行うために開いています。ネティーザとの私の経験は非常に肯定されている - 技術と企業の両方

のHadoopは、純粋な演算マップ低減です。これは、ACIDのデータベース・プロパティのコストが発生しません。だから、それは本当にNetezzaのとは別の獣です。使用パターンに依存して、Netezzaのより良いと確かに安くなることがあります。 Hadoopのはあなたが低コストで必要なクエリの利便性を与える可能性がありサポートのHBaseとハイブを持っていました。

私たちのチームの他の開発者は、これは秒針があるようにInfobrightは、評価され、負荷性能が貧弱であること、および集計の一部が遅くなることが判明しました。これは、Netezzaの(例えばゾーンマップが狭いスキャン範囲を助けるためにNetezzaの中で使用されている)といくつかの類似点を持っています。 Infobrightは、コミュニティとサポートEnterprise版の両方を持つオープンソースです。

おそらく、このフォーラムの範囲を超えて -

より多くのあなたの特定の問題の文脈で言うことができることがあります。この情報がお役に立てば幸いです。

他のヒント

クエリでどのような質問に答えようとしているのか、またはデータがどのように構造化されているのかを指定していません。使用するソリューションを選択する前に、おそらくこれら 2 つのことについて考える必要があります。

あなたは正しいです:主要な RDBMS ベンダーはクラスタリング ソリューションを提供しています。並列処理と高可用性の両方を実現します。このテクノロジーは以前から導入されており、大量のデータを保有する企業はおそらくそれを使用しているでしょう。製品を購入すると ($$$)、多くのドキュメントが提供され、余裕があればセットアップを手伝ってくれます (さらに $$$)。

RDBMS はオンライン トランザクション (OLTP) に適しています。特定の行に関する質問に答える (メアリーはどこに住んでいますか?)。いくつかの要約タイプの質問 (第 1 四半期にいくら売れたのかなど) に答えることもできますが、詳細な要約質問 (製品、営業担当者、月ごとに内訳された、第 1 四半期にいくら売れたのか) を実行することもできます。およびリージョン?)、通常はその制限に負担がかかり始めます (すべての行を参照する必要があるクエリは遅くなります)。

これらのタイプのクエリの場合、ほとんどの企業には、データを多次元の「キューブ」に構築するデータウェアハウスがあります。 (Cognos、Hyperion、その他を参照)。それはあなたがやろうとしていることに適しているかもしれません。

私は MapReduce の経験はありませんが、Wikipedia のセクションを読んだことがあります。 用途 ですから、もしあなたがやろうとしていることがそれらのカテゴリーに当てはまるのであれば、私はそれを続けるでしょう。

あなたは速いペースで成長している組織である場合は、

、あなたはTeradataのを使用する必要があります。私たちは本当にのTeradataとの良好な経験を持っています。それはあなたの他のベンダーによって与えることができないスケーラビリティを提供します。あなたは、そのSQLや作業スタイルに慣れたら、本当にのTeradataの設計とアーキテクチャを理解するだろう。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top