我想知道其他开发人员是如何设置他们的本地环境来从事Spark Projects的工作。您是否使用Vagrant等工具配置“本地”群集?或者,SSH进入云环境(例如AWS的群集)最常见吗?也许在许多任务中,单个节点群集足够,并且可以更轻松地在本地运行。

有帮助吗?

解决方案

SPARK旨在指向大型分布式数据集,因此您建议,最典型的用例将涉及连接到某种类型的云系统等AWS。

实际上,如果您要分析的数据集可以适合您的本地系统,则通常会发现您可以像简单地使用Pure Python一样进行分析。如果您试图利用一系列本地VM,则很快就会用完记忆力,而作业将失败或停止。

话虽如此,当地火花实例对于开发目的非常有用。

我发现有效的一种方法是,如果我在HDF中有一个带有许多文件的目录,我将介绍一个文件,在本地开发,然后将Spark脚本移植到云系统中以进行执行。如果您使用的是AWS,这对于避免开发时避免大量费用确实很有帮助。

其他提示

就我个人而言,我没有使用Vagrant进行本地供应。我在没有HDF的情况下在本地安装了一个火花群集,这使我可以在没有虚拟机的压倒性的情况下轻松地进行实验和开发。

HDFS不是本地群集的要求,如果您只需要进行本地测试,它也是一种系统管理的噩梦。

当然,当当然要在云上部署时,Spark可以很好地使用本地文件系统。

但是,您可以将Vagrant与AWS配置一起使用,以创建一个群集以进行更重测试。

注意:AWS与S3合作,而不是HDFS。 AWS的HDFS版本是短暂的,如果放下群集,您将失去所有计算。为了持久,您需要写回S3。

许可以下: CC-BY-SA归因
scroll top