MapReduce eficiente cuando se trata de corrientes a consultas al mismo conjunto de datos

https://stackoverflow.com/questions/2201857

parallel-processing
mapreduce
distributed-computing

18-09-2019
|

Pregunta

Tengo un conjunto de datos masiva, estática y no tengo una función de aplicar a la misma.

f está en la forma a reducir (mapa (f, el conjunto de datos)), por lo que me gustaría utilizar el esqueleto MapReduce. Sin embargo, no quiero para dispersar los datos en cada petición (y lo ideal es que quiero aprovechar la indexación con el fin de speedup f). Existe una implementación de MapReduce que abordan este caso general?

He echado un vistazo a IterativeMapReduce y tal vez lo hace el trabajo, pero parece dirigirse a una ligeramente diferente caso, y el código aún no está disponible.

Solución

Hadoop MapReduce de (y todos los demás mapa-reducen esqueleto inspirado por Google) no se dispersa los datos todo el tiempo.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow