Вопрос

Мне интересно, как другие разработчики создают свои местные среды для работы над проектами Spark. Вы настраиваете «локальный» кластер, используя такой инструмент, как Vagrant? Или, наиболее распространено для SSH в облачной среде, такой как кластер на AWS? Возможно, есть много задач, где одно узловой кластер является адекватным, и его можно легче запускать локально.

Это было полезно?

Решение

Spark предназначена для указания на больших распределенных наборах данных, поэтому, как вы предлагаете, наиболее типичные варианты использования будут включать подключение к какой -то облачной системе, такой как AWS.

На самом деле, если набор данных, который вы стремитесь к анализу, может соответствовать вашей локальной системе, вы обычно обнаружите, что вы можете проанализировать его так же просто с помощью Pure Python. Если вы пытаетесь использовать серию местных виртуальных машин, у вас довольно быстро заканчивается память, и задания либо потерпет неудачу, либо остановится.

С учетом сказанного, местный случай искры очень полезен для целей разработки.

Один из способов, которым я обнаружил, что работает, если у меня есть каталог в HDFS с множеством файлов, я протяну один файл, разрабатываю локально, а затем перенесет мой скрипт Spark в мою облачную систему для выполнения. Если вы используете AWS, это действительно полезно, чтобы избежать больших сборов во время развития.

Другие советы

Лично я не использую бродяги с местным подготовкой. Я установил локально Spark Cluster без HDF, который позволяет мне экспериментировать и легко развиваться без перегрузки виртуальной машины.

HDFS не является требованием для местных кластеров, а также является своего рода кошмаром системного администрирования, если вам просто нужно для местного тестирования.

Spark очень хорошо работает с локальными файловыми системами, которые вам также придется портировать при развертывании в вашем облаке, конечно.

Тем не менее, вы можете использовать Vagrant с предоставлением AWS для создания кластера для более тяжелого тестирования.

Примечание: AWS работает с S3, а не HDFS. Версия HDFS от AWS является эфемерной, и если вы отложите кластер, вы потеряете все свои вычисления. Для настойчивости вам нужно написать S3.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с datascience.stackexchange
scroll top