Développement local pour Apache Spark

https://datascience.stackexchange.com/questions/5142

apache-spark

16-10-2019
|

Question

Je me demande comment les autres développeurs mettent en place leur environnement local pour travailler sur des projets Spark. Est-ce que vous configurez un cluster « local » à l'aide d'un outil comme Vagrant? Ou, est-il la plus courante de SSH dans un environnement cloud, comme un cluster sur AWS? Peut-être il y a beaucoup de tâches où un cluster à nœud unique est suffisante, et peut être exécuté plus facilement sur place.

La solution

Spark est destiné à être pointé à grands ensembles de données distribués, de sorte que vous suggérez, les cas d'utilisation les plus typiques impliquent la connexion à une sorte de système cloud comme AWS.

En fait, si l'ensemble des données que vous visez à analyser peut s'adapter sur votre système local, vous trouverez généralement que vous pouvez l'analyser comme simplement en utilisant python pur. Si vous essayez de tirer parti d'une série de machines virtuelles locales, vous allez manquer de mémoire assez rapidement et des emplois seront échouer ou arrêteraient.

Cela dit, une instance locale d'étincelle est très utile dans le but du développement.

Une façon que j'ai trouvé que les œuvres est si j'ai un répertoire dans HDFS avec de nombreux fichiers, je vais tirer sur un seul fichier, développer localement, le port mon script étincelle à mon système de nuage pour l'exécution. Si vous utilisez AWS, ce qui est vraiment utile pour éviter les frais de gros pendant que vous développez.

Autres conseils

Personnellement, je ne pas utiliser errante avec un approvisionnement local. J'ai installé un groupe Spark localement sans HDFS qui me permet d'expérimenter et de développer facilement sans l'accablent d'une machine virtuelle.

HDFS est pas une exigence pour les clusters locaux, et il est aussi une sorte de cauchemar d'administration du système si vous avez besoin pour les tests locaux.

Spark fonctionne très bien avec les systèmes de fichiers locaux que vous aurez également le port quand Deploy sur votre nuage bien sûr.

Cependant, vous pouvez utiliser avec errante d'approvisionnement AWS pour créer un cluster pour des tests plus lourds.

Remarque: AWS fonctionne avec S3 et non HDFS. La version HDFS AWS est éphémère et si vous mettez le cluster, vous perdrez tous vos calculs. Pour la persistance, vous devrez écrire de nouveau à S3.

Licencié sous: CC-BY-SA avec attribution

Non affilié à datascience.stackexchange