Desarrollo local para Spark Apache

https://datascience.stackexchange.com/questions/5142

apache-spark

16-10-2019
|

Pregunta

Me pregunto cómo otros desarrolladores están estableciendo sus entornos locales para trabajar en proyectos de chispa. Cómo se configura un grupo 'local' usando una herramienta como vagabundo? O, ¿es más común de SSH en un entorno de nube, tales como un grupo en AWS? Tal vez hay muchas tareas que un clúster de un solo nodo es adecuada, y se puede ejecutar de forma local con mayor facilidad.

Solución

Spark está destinado a ser señalado en grandes conjuntos de datos distribuidas, así como sugieres, los casos de uso más típicas implicarán la conexión con algún tipo de sistema de nubes como AWS.

De hecho, si el conjunto de datos que está dirigido a analizar puede encajar en el sistema local, por lo general encontrará que se puede analizar al igual que el simple uso de Python puro. Si usted está tratando de aprovechar una serie de máquinas virtuales locales, vas a quedar sin memoria con bastante rapidez y el empleo ya sea va a fallar o se detienen.

Con eso dicho, una instancia local de chispa es muy útil para los fines del desarrollo.

Una forma que he encontrado que funciona es si tengo un directorio en HDFS con muchos archivos, voy a tirar en un solo archivo, desarrollar localmente, entonces el puerto mi guión chispa para mi sistema de nubes para su ejecución. Si está utilizando AWS, esto es muy útil para evitar grandes gastos de cuando se está creando.

Otros consejos

En lo personal, yo no uso vagabundo con un aprovisionamiento local. He instalado un grupo de chispa localmente sin HDFS que me permite experimentar y desarrollar fácilmente sin el agobio de una máquina virtual.

HDFS no es un requisito para las agrupaciones locales, y es también una especie de una pesadilla administración del sistema si lo que se necesita para la prueba local.

Spark funciona muy bien con los sistemas de archivos locales, que también tendrá a puerto cuando despliegan en su nube, por supuesto.

Sin embargo, puede utilizar vagabundo con AWS aprovisionamiento para crear un clúster para la prueba más pesado.

Nota: AWS trabaja con S3 y no HDFS. HDFS versión de AWS es efímero y si se pone el clúster, perderás todos tus cálculos. La persistencia, tendrá que escribir de nuevo a S3.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a datascience.stackexchange