El procesamiento de los datos almacenados en el corrimiento al rojo

https://datascience.stackexchange.com/questions/2454

16-10-2019
|

Pregunta

Actualmente estamos utilizando corrimiento al rojo como nuestro almacén de datos, lo que estamos muy contentos. Sin embargo, ahora tenemos la obligación de hacer frente a la máquina de aprendizaje los datos en nuestro almacén. Dado el volumen de datos involucrados, lo ideal sería que me gustaría correr el cómputo en la misma ubicación que los datos en lugar de desplazar los datos en todo, pero esto no parece lo hace posible con corrimiento al rojo. He mirado en Madlib, pero esto no es una opción como corrimiento al rojo no soporta UDF (que requiere Madlib). Actualmente estoy mirando el desplazamiento de los datos a través de EMR y procesarla con la biblioteca Apache máquina de chispa de aprendizaje (o tal vez H20, o mahout, o lo que sea). Así que mis preguntas son:

¿hay una manera mejor?
Si no, ¿cómo debería hacer que los datos sean accesibles a Spark? Las opciones que he identificado hasta la fecha incluyen: uso Sqoop para cargarlo en HDFS, el uso DBInputFormat, realizar una exportación de corrimiento al rojo a S3 y tienen agarre Spark desde allí. ¿Cuáles son las ventajas / desventajas de estos enfoques diferentes (y cualquier otros) cuando se utiliza la chispa?

Tenga en cuenta que esto es fuera de línea de aprendizaje por lotes, pero que le gustaría ser capaz de hacer esto lo más rápido posible para que podamos repetir los experimentos rápidamente.

Solución

La nueva máquina de Servicio de Aprendizaje Amazon podría funcionar para usted. Funciona directamente con corrimiento al rojo y podría ser una buena manera de empezar. http://aws.amazon.com/machine-learning/

Si lo que busca es el proceso mediante EMR, a continuación, puede utilizar el comando Unload del corrimiento al rojo de los datos terrestres en S3. Chispa en el EMR se puede acceder a él directamente, sin tener que tirar de él en HDFS.

chispa en EMR: https://aws.amazon.com/articles/Elastic- MapReduce / 4926593393724923

Otros consejos

Puede probar esto. https://github.com/databricks/spark-redshift

De lo contrario usar la respuesta de Rahul, los datos de descarga a los s3 luego cargarla en SPARK. EMR Spark es en la parte superior de hilo y compatible con el método archivo de texto de contexto Spark "s3 //" nativa.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a datascience.stackexchange