ビッグデータ分析を始める方法[クローズ
質問
私はRの長い間ユーザーであり、最近Pythonの作業を開始しました。データウェアハウジングのために従来のRDBMSシステムを使用し、数値計算にR/Pythonを使用して、ビッグデータ分析で手を汚す必要があると感じています。
ビッグデータの乳りを始める方法を知りたいのですが。 - マップ/削減とHadoopの使用で簡単に始める方法
- RとPythonのスキルを活用して、ビッグデータ分析を開始するにはどうすればよいですか。たとえば、Pythonディスコプロジェクトを使用します。
- Rhipeパッケージを使用し、おもちゃのデータセットと問題領域を見つけます。
- RDBMSタイプのデータベースからNOSQLに移動する必要があるかどうかを判断できる適切な情報を見つける
全体として、私は小さく始めて、ビッグデータ分析のスキルとノウハウを徐々に構築する方法を知りたいと思います。
ご提案と推奨事項をありがとうございます。このクエリの一般的な性質をお詫びしますが、このトピックに関してより多くの視点を得たいと考えています。
- ひどい
解決
たとえば、Pythonディスコプロジェクトを使用します。
良い。それで遊ぶ。
Rhipeパッケージを使用し、おもちゃのデータセットと問題領域を見つけます。
罰金。それでも遊んでください。
「大きな」データセットを見つけて汗をかかないでください。小さなデータセットでさえ、非常に興味深い問題を提示しています。実際、どのデータセットも開始点です。
私はかつて、組織の6,000万ドルの予算を分析するために、小さな星シーマを構築しました。ソースデータはスプレッドシートにあり、本質的に理解できませんでした。そこで、私はそれをスタースキーマにアンロードし、Pythonでいくつかの分析プログラムを書き、関連する数字の簡略化されたレポートを作成しました。
RDBMSタイプのデータベースからNOSQLに移動する必要があるかどうかを判断できる適切な情報を見つける
これは簡単。
まず、たとえば、データウェアハウジング(Ralph KimballのThe Data Warehouse Toolkit)に関する本を入手してください。
第二に、「スタースキーマ」を注意深く研究してください。特に、キンボールが説明するすべてのバリエーションと特別なケース(詳細)
第三に、次のことを実現します。SQLは更新とトランザクション用です。
「分析」処理(大小)を実行する場合、いかなる種類の更新もほとんどありません。 SQL(および関連する正規化)は、これ以上重要ではありません。
Kimballのポイント(および他の人も)は、データウェアハウスのほとんどがSQLにないため、単純なフラットファイルにあるということです。データマート(アドホック、スライスアンドダイス分析用)は、SQLで簡単で柔軟な処理を可能にするリレーショナルデータベースに含まれている場合があります。
したがって、「決定」は些細なことです。トランザクション( "OLTP")の場合、関係またはOO DBでなければなりません。分析(「OLAP」)の場合、スライスアンドダイス分析を除いてSQLは必要ありません。そして、それでもDBは必要に応じて公式ファイルからロードされます。
他のヒント
あなたが考えることができることの1つはdmeltです(http://jwork.org/dmelt/)データ分析プログラム。注目すべき機能の1つは、Python言語を使用した数百の例と数冊の本があることです。私がそれを使用していた理由は、それが私のWindows 10で実行されているため(Java VMを使用するため)、さらに2D/3Dの非常に優れたグラフィックを備えており、ベクトルグラフィックス形式にエクスポートできます。