Apache Spark的本地开发

题

我想知道其他开发人员是如何设置他们的本地环境来从事Spark Projects的工作。您是否使用Vagrant等工具配置“本地”群集？或者，SSH进入云环境（例如AWS的群集）最常见吗？也许在许多任务中，单个节点群集足够，并且可以更轻松地在本地运行。

解决方案

SPARK旨在指向大型分布式数据集，因此您建议，最典型的用例将涉及连接到某种类型的云系统等AWS。

实际上，如果您要分析的数据集可以适合您的本地系统，则通常会发现您可以像简单地使用Pure Python一样进行分析。如果您试图利用一系列本地VM，则很快就会用完记忆力，而作业将失败或停止。

话虽如此，当地火花实例对于开发目的非常有用。

我发现有效的一种方法是，如果我在HDF中有一个带有许多文件的目录，我将介绍一个文件，在本地开发，然后将Spark脚本移植到云系统中以进行执行。如果您使用的是AWS，这对于避免开发时避免大量费用确实很有帮助。

其他提示

就我个人而言，我没有使用Vagrant进行本地供应。我在没有HDF的情况下在本地安装了一个火花群集，这使我可以在没有虚拟机的压倒性的情况下轻松地进行实验和开发。

HDFS不是本地群集的要求，如果您只需要进行本地测试，它也是一种系统管理的噩梦。

当然，当当然要在云上部署时，Spark可以很好地使用本地文件系统。

但是，您可以将Vagrant与AWS配置一起使用，以创建一个群集以进行更重测试。

注意：AWS与S3合作，而不是HDFS。 AWS的HDFS版本是短暂的，如果放下群集，您将失去所有计算。为了持久，您需要写回S3。

许可以下： CC-BY-SA 和归因