Hadoopをデータサイエンティストにすることを学ぶ必要がありますか？

https://datascience.stackexchange.com/questions/253

16-10-2019
|

質問

ここの意欲的なデータサイエンティスト。 Hadoopについては何も知りませんが、データサイエンスとビッグデータについて読んでいるので、Hadoopについて多くの話を見ています。 Hadoopをデータサイエンティストにすることを学ぶことは絶対に必要ですか？

解決

さまざまな人がさまざまなものにさまざまなツールを使用しています。データサイエンスのような用語は、理由で一般的です。データサイエンティストは、Hadoopのような特定のツールを学ぶことなく、キャリア全体を過ごすことができます。 Hadoopは広く使用されていますが、データ、さらには大規模なデータを管理および操作できるプラットフォームだけではありません。

データサイエンティストは、MapReduce、分散システム、分散ファイルシステムなどの概念に精通している必要がありますが、そのようなことについて知らないことで誰かを判断しません。

それは大きな分野です。知識の海があり、ほとんどの人は学習することができ、一滴の専門家になることができます。科学者であることの鍵は、学びたいという願望と、あなたがまだ知らないことを知りたいという動機を持っていることです。

例として：10年にわたって1つの特定のクラスで教室のパフォーマンスに関する情報を含む100の構造化されたCSVファイルを適切な人に渡すことができました。データサイエンティストは、複数のマシンに計算を広める必要なく、データから1年間の洞察を費やすことができます。機械学習アルゴリズムを適用し、視覚化を使用して分析し、地域に関する外部データ、民族構成、時間の経過とともに環境の変更、政治情報、天気パターンなどを組み合わせることができます。。 Hadoopのようなものをテストして、学んだものはすべて教室ではなく、生徒の全国を含むデータにテストして適用するかもしれませんが、その最終ステップは必ずしも誰かをデータサイエンティストにするわけではありません。そして、その最終的なステップを踏まないことは、必ずしも誰かがデータサイエンティストであることを失格にするわけではありません。

他のヒント

元Hadoopエンジニアとして、それは必要ありませんが、それは役立ちます。 Hadoopは、Javaに基づいた最も一般的なシステムと製品のエコシステムに基づく最も一般的なシステムであり、特定の手法を適用して結果をタイムリーに取得する製品のエコシステムです。 HadoopはGoogleで使用されていませんが、ビッグデータ分析を使用していることを保証します。 Googleは、C ++で開発された独自のシステムを使用しています。実際、Hadoopは、Googleがマップ/ReduceとBigtable（Hbase in Hadoop）ホワイトペーパーを公開した結果として作成されました。

データサイエンティストはHadoopエンジニアとインターフェイスしますが、小さな場所では両方の帽子をかぶる必要がある場合があります。あなたが厳密にデータサイエンティストである場合、分析に使用するものはすべて、R、Excel、Tableauなどが小さなサブセットでのみ動作します。

最初に、「Hadoopを学ぶ」とはどういう意味かを明確にする必要があります。 MapReduceでプログラムすることを学ぶなど、Hadoopを使用することを意味する場合、おそらくそれは良い考えです。しかし、基本的な知識（データベース、機械学習、統計）は、時間が経つにつれてより大きな役割を果たす可能性があります。

はい、問題をデータの並列問題として分析できるプラットフォームを学習する必要があります。 Hadoopは1つです。単純なニーズ（カウント、集約、フィルタリングなどのデザインパターン）については、Hadoopが必要です。データ並列アプローチ。

したがって、Hadoopは学習するのに適したプラットフォームであり、バッチ処理のニーズにとって本当に重要です。 Hadoopだけでなく、Spark（MahoutはSparkを利用したアルゴリズムを実行します）とTwitter Storm（リアルタイム分析のニーズに対応）を知る必要があります。このリストは継続して進化するため、ビルディングブロック（分散コンピューティング、データ並列問題など）に適している場合は、そのようなプラットフォーム（Hadoopなど）がどのように動作するかを知っている場合、他のプラットフォームがかなり迅速に速度を上げることができます。

それはあなたが働いている環境/会社に強く依存します。私の目には、現時点で「ビッグデータ」の誇大広告があり、多くの企業がHadoopベースのソリューションでフィールドに参入しようとしています。Hadoopを流行語にしているのは、常に最良の解決策ではありません。

私の考えでは、優れたデータサイエンティストは正しい質問をし、本当に必要なものが明確になるまで再び尋ね続けることができるはずです。優れたデータキンタストよりも - もちろん - は、問題に対処する方法を知る必要があります（または、少なくともできる人を知っています）。そうでなければ、あなたの利害関係者はイライラする可能性があります:-)

ですから、Hadoopを学ぶことは絶対に必要ではないと思います。

データサイエンティストとして仕事になりたい場合はHadoopを学ぶ必要がありますが、Hadoopを始める前にETLやビッグデータについて何かを読むべきです...この本は良い出発点かもしれません。 http://www.amazon.com/big-data-principles-practics-scalable/dp/1617290343

それが役立つことを願っています、そして幸運を！

データサイエンス技術を1つのマシンのデータに適用できるため、OPが表現する質問に対する答えはノーです。

データサイエンスは、さまざまなスキルを要求する分野です。 Hadoopの知識を持っていることもその一つです。データサイエンティストの主なタスクには次のものがあります。

さまざまなリソースからデータを収集します。
データのクリーニングと前処理。
データの統計的特性の研究。
機械学習技術を使用して、予測を行い、データから洞察を導き出します。
結果を意思決定者に理解しやすい方法で伝える。

上記のポイントのうち、Hadoopの知識はポイント1、2と3に役立ちますが、データサイエンス分野で働くためには、強力な数学的/統計的背景と計算技術の強力な知識が必要です。また、データサイエンスで使用されている唯一のフレームワークではありません。ビッグデータエコシステムには、特定のユースケースに固有のさまざまなフレームワークがあります。この記事では、データサイエンスで使用できる主要なビッグデータフレームワークに関する導入資料を提供します。

http://www.codophile.com/big-data-frameworks-everyprogrmer-should-know/

Leaning Hadoopフレームワーク（ハードウェイ）は、データサイエンティストであることの要件ではないと思います。すべてのビッグデータプラットフォームに関する一般的な知識が不可欠です。私はそれについての概念を知ることを提案します、そして、Hadoopからの一部のみが必要なのはMapReduceですhttp://hadoop.apache.org/docs/current/hadoop-mapreduce-client/hadoop-mapreduce-crient-core/mapreducetutorial.html

データサイエンティストはクラスターを構築せず、管理者は...データを使用して「魔法」を作るだけでなく、どこから来たのかは気にしません。「Hadoop」という用語は、上記のベースモジュールだけでなく、「エコシステム」、またはApache Pig、Apache HiveなどのHadoopの上または並んでインストールできる追加のソフトウェアパッケージのコレクションにも言及するようになりました。 Apache hbase、Apache Spark、その他。

最も重要なのは、データを使用するためのプログラミング言語、数学、統計です（データに接続して前進する方法を見つける必要があります）。コンセプトを私に指し示す人がいて、その部分はデータエンジニアやデータサイエンティストではなく管理者の役割であるため、フレームワークの学習に何週間も費やさないようにしたいと思います。また、1つは、すべてが変化し、進化していますが、数学、プログラミング、統計が依然として要件です。

HDFSからのデータへのアクセスは、Proc Hadoop、Hive、SparkContext、または他のドライバーまたはパイプなどです（Hadoopをアクセスデータまたはストレージのポイントとして扱います:)

すでにリソースの割り当てと管理、パフォーマンスの世話をするツールまたはフレームワークが整っています。

ライセンス： CC-BY-SA と帰属

所属していません datascience.stackexchange