我需要了解Hadoop是数据的科学家吗？

https://datascience.stackexchange.com/questions/253

16-10-2019
|

题

一个有抱负的数据的科学家在这里。我不知道什么关于中挖掘价值，但因为我已经阅读有关的科学数据和大型数据，我看到很多的谈论Hadoop。它是绝对必要的学习Hadoop是数据的科学家吗？

解决方案

不同的人使用不同的工具，用于不同的事情。像科学数据是通用的一个原因。数据的科学家可能要花一整个职业生涯中没有具有学习一个特定的工具很轻松的就能知道.原来广泛使用，但它不是唯一的平台，能够管理和操作的数据，甚至大规模的数据。

我要说的是，数据的科学家应熟悉的概念，如map/reduce、分布式系统、分布式文件系统，等等，但我不会判断一个人不知道有关这样的事情。

这是一个大的领域。有一个海洋的知识和大多数人都能够学习和专家在一个单一的下降。关键是一名科学家是具有学习的愿望和动力的知道您不知道的。

作为一个例子：我可以手权人一百构CSV文件包含的信息有关的课堂表现在一个特定类别超过十年。数据的科学家将能够花一年的时间搜集信息的数据，而不需要传播计算在多个机。你可以申请学习机的算法、分析它的使用可视化，将其与外部数据有关的区域、民族构成变化的环境在时间、政治信息、天气模式，等等。所有这将是"数据的科学"在我的意见。这可能需要的东西很轻松的就能知道的测试和应用任何你学会了数据包括整个国家的学生，而不仅仅是一个教室，但这一最后步骤不一定能使一个人数据的科学家。而不是采取最后步骤并不一定取消资格的人从一个数据的科学家。

其他提示

作为前Hadoop工程师，它不需要，但会有所帮助。 Hadoop只是一个系统 - 最常见的系统，基于Java和一个产品的生态系统，该系统应用特定技术“ MAP/RESID”以及时获得结果。 Google没有使用Hadoop，尽管我向您保证他们使用大数据分析。 Google使用自己的系统，在C ++中开发。实际上，Hadoop是由于Google发布了其地图/减少和Boogtable（HBASE）白皮书而创建的。

数据科学家将与Hadoop工程师交互，尽管在较小的地方，您可能需要戴上两个帽子。如果您严格地是数据科学家，那么您用于分析，R，Excel，Tableau等的任何用品都只能在一个小子集上运行，然后需要转换以与涉及Hadoop的完整数据集进行运行。

你必须先弄清楚是什么意思"学习Hadoop".如果你的意思是使用中挖掘价值，例如学习程序在map/reduce，则最可能的是，它是一个好主意。但基本知识(数据库、学习机、统计数据)可以发挥更大的作用随着时间的推移。

是的，您应该学习一个能够将问题作为数据并行问题剖析的平台。 Hadoop是一个。为了您的简单需求（设计模式，例如计数，聚合，过滤等），您需要Hadoop和更复杂的机器学习内容，例如做一些贝叶斯，SVM，您需要mahout，又需要Hadoop（现在是Apache Spark）来解决您的问题数据并行方法。

因此，Hadoop是学习的好平台，对于您的批处理处理需求非常重要。不仅Hadoop，您还需要知道Spark（Mahout运行了使用Spark的算法）和Twitter Storm（对于您的实时分析需求）。此列表将继续并发展，因此，如果您对构建块（分布式计算，数据并行问题等）都很好，并且知道一个这样的平台（例如hadoop）如何运行，您将很快迅速提高其他人的速度。

这在很大程度上取决于您正在与之合作的环境/公司。在我看来，目前有一个“大数据”炒作，许多公司试图使用基于Hadoop的解决方案进入该领域 - 这也使Hadoop也成为流行语，但并不总是最好的解决方案。

在我看来，一个好的数据科学家应该能够提出正确的问题，并继续询问，直到清楚其真正需要的内容为止。当然，不仅仅是一个好的dataScientist（当然）需要知道如何解决该问题（或至少知道可以的人）。否则您的利益相关者可能会感到沮丧:-)

因此，我会说学习Hadoop并不是绝对必要的。

如果您想成为数据科学家工作，您应该学习Hadoop，但是也许在Hadoop开始之前，您应该阅读有关ETL或大数据的内容...这本书可能是一个很好的起点： http://www.amazon.com/big-data-principles-practices-scalable/dp/1617290343

希望它有帮助，祝你好运！

您可以将数据科学技术应用于一台计算机上的数据，因此对该问题的答案是否。

数据科学是一个要求各种技能的领域。了解Hadoop是其中之一。数据科学家的主要任务包括：

从不同资源收集数据。
清洁和预处理数据。
研究数据的统计特性。
使用机器学习技术进行预测并从数据中获得见解。
以一种易于理解的方式将结果传达给决策者。

从上述点中，对Hadoop的知识对于点1,2和3很有用，但是您还需要具有强大的数学/统计背景和对计算技术的强大知识，以在数据科学领域工作。同样，Hadoop并不是数据科学中使用的唯一框架。大数据生态系统具有一系列框架，每个框架都针对特定的用例。本文提供了有关数据科学中可以使用的主要大数据框架的介绍材料：

http://www.codophile.com/big-data-frameworks-every-evermogrammer-should-know/

我确实认为倾斜的Hadoop框架（艰难的方式）并不是成为数据科学家的要求。所有大数据平台上的一般知识至关重要。我建议知道它的概念，而Hadoop只有部分需要部分http://hadoop.apache.org/docs/current/hadoop-mapreduce-client/hadoop-mapreduce-client-core/mapreducetutorial.html

数据科学家不会建立群集，管理...只是用数据制作“魔术”，并且不在乎来自哪里。 “ hadoop”一词不仅是指上面的基本模块，还指“生态系统”，或收集可以安装在Hadoop上或与Hadoop一起安装的其他软件包的收集，例如Apache Pig，Apache Hive，Apache Hive， Apache HBase，Apache Spark等。

最重要的是用于使用数据的编程语言，数学和统计信息（您需要找到一种与数据联系并继续前进的方法）。我希望我能有人指向这个概念，不要花几个星期的时间来学习框架并从头开始构建节点和集群，因为这部分是管理员角色，而不是数据工程师或数据科学家。还有一件事：所有人都在改变和发展，但是数学，编程，统计数据仍然是要求。

从HDFS访问数据至关重要，例如Proc Hadoop，Hive，SparkContext或任何其他驱动程序或管道（将Hadoop视为加速数据或存储的点:)

已经建立了工具或框架，什么是照顾资源分配和管理，性能。

许可以下： CC-BY-SA 和归因

不隶属于 datascience.stackexchange