implementación de MapReduce en Scala

https://stackoverflow.com/questions/962075

12-09-2019
|

Pregunta

Me gustaría saber el bien y el sólido marco de MapReduce, para ser utilizado de Scala.

Solución

Para añadir a la respuesta en Hadoop:. Existen al menos dos envoltorios de Scala que hacen que trabajar con Hadoop más aceptable

Scala MapReduce (SMR): http: // Scala -blogs.org/2008/09/scalable-language-and-scalable.html

SHadoop: http://jonhnny-weslley.blogspot.com/2008/ 05 / shadoop.html

UPD 05 de octubre 11

También hay Scoobi marco , que tiene expresividad impresionante.

Otros consejos

http://hadoop.apache.org/ es el lenguaje agnóstico.

En lo personal, me he convertido en un gran fan de la chispa

http://spark-project.org/

Usted tiene la capacidad de hacer Cluster de Computación en memoria, lo que reduce significativamente los gastos generales que iba a experimentar operaciones de MapReduce uso intensivo del disco.

Usted puede estar interesado en scouchdb , una interfaz de Scala usando CouchDB .

Otra idea es usar GridGain . ScalaDudes tener un ejemplo del uso GridGain con Scala. Y aquí es otro ejemplo.

Hace un tiempo, me encontré con exactamente este problema y terminó escribiendo un poco de la infraestructura para que sea fácil de usar Hadoop de Scala. Lo utilicé en mi cuenta durante un tiempo, pero finalmente llegué a ponerlo en la web. Se llama así (muy originalmente) ScalaHadoop .

Para una API Scala en la parte superior de hadoop echa un vistazo a Scoobi , que todavía está en desarrollo, pero muestra pesada una gran promesa. También hay un poco de esfuerzo para poner en práctica las colecciones distribuidas en la parte superior de Hadoop en el Scala incubadora , pero sin embargo, ese esfuerzo no es utilizable.

También hay un nuevo envoltorio Scala para conectar en cascada desde Twitter, llamado Escaldado . Después de mirar muy brevemente sobre la documentación para escaldar parece que si bien hace que la integración con cascada más suave todavía lo hace no resuelve lo que veo como el principal problema con cascada: la seguridad de tipos. Cada operación en cascada funciona en tuplas de cascada (básicamente una lista de valores de campo, con o sin un esquema separado), lo que significa que errores de tipo, es decir, Unirse a una tecla como una cadena y un largo clave como clientes potenciales al tiempo de ejecución de los fallos.

a otro punto de jshen:

Streaming hadoop simplemente utiliza sockets. usando UNIX arroyos, su código (cualquier idioma) simplemente tiene que ser capaz de leer de la entrada estándar y salida delimitados por tabuladores corrientes. implementar un mapeador y si es necesario, un reductor (y en su caso, configurar que a medida que el combinador).

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow