Casos de uso de Neo4J y GraphX ??Spark

https://datascience.stackexchange.com/questions/2682

16-10-2019
|

Pregunta

he utilizado Neo4J implementar un motor de recomendación de contenido. Yo como Cypher, y encontrar las bases de datos de gráficos para ser intuitivo.

En cuanto a la ampliación de un conjunto de datos más grande, no estoy seguro de No4J + Cypher será performant. Chispa tiene el proyecto GraphX, que no he utilizado en el pasado.

¿Ha cambiado a nadie de Neo4J a Spark GraphX? ¿Se superponen los casos de uso, además de escalabilidad? O, ¿GraphX ??dirección de un conjunto problema completamente diferente que Neo4J?

Solución

Neo4j y Spark GraphX ??son para la resolución de problemas a nivel diferente y que son complementarias entre sí.

Se pueden conectar por extensión Mazerunner de Neo4j:

Mazerunner es una extensión no administrado Neo4j y el gráfico distribuido plataforma de procesamiento que se extiende Neo4j para realizar el procesamiento gráfico de datos grande puestos de trabajo, mientras que persisten los resultados de vuelta a Neo4j.

Mazerunner utiliza un intermediario de mensajes para distribuir trabajos de procesamiento gráfico al módulo de Apache GraphX ??chispa. Cuando se envía un trabajo de agente, una subgrafo se exporta desde Neo4j y se escribe en Apache Hadoop HDFS.

Después de Neo4j exporta un subgrafo a HDFS, un servicio Mazerunner separada por chispa es notificado para empezar a procesar esos datos. El corredor del laberinto servicio continuación, se iniciará un algoritmo de procesamiento gráfico distribuido utilizando Scala y el módulo GraphX ??de chispa. El algoritmo GraphX ??se serializa y envió a Spark Apache para su procesamiento.

Una vez que se complete el Trabajo de la chispa de Apache, los resultados se vuelven a escribir HDFS como una lista de valores-clave de cambios de propiedad que se aplicarán de nuevo a Neo4j.

Neo4j se notifica entonces que una lista de actualización está disponible desde la propiedad Spark Apache en HDFS. Neo4j lotes importaciones los resultados y aplica el las actualizaciones de gráfico original.

Salida este tutorial para tener una idea sobre cómo combinar los dos: http://www.kennybastani.com /2014/11/using-apache-spark-and-neo4j-for-big.html

Licenciado bajo: CC-BY-SA con atribución

No afiliado a datascience.stackexchange