Hadoop para crear un índice y Add () a la SOLR distribuido ... ¿es esto posible? ¿Debo usar Nutch? ..Cloudera?

https://stackoverflow.com/questions/4235892

26-09-2019
|

Pregunta

¿Puedo utilizar un marco de MapReduce para crear un índice y de alguna manera agregarlo a una distribuido Solr?

Tengo una explosión de información (archivos de registro y documentos) que será transportada en internet y se almacena en mi centro de datos (o Amazon). Tiene que ser analizada, indexado, y finalmente buscar por nuestra instalación Solr replicado.

Aquí está mi arquitectura propuesta:

Utilice un marco MapReduce (Cloudera, Hadoop, Nutch, incluso DryadLinq ) para preparar los documentos para la indexación
Índice de esos documentos en un Lucene.NET / Lucene (Java) formato de archivo compatible
Implementar el archivo a todos mis casos Solr
Activar que el índice replicado

Si que lo anterior es posible, tiene que elegir un marco de MapReduce. Desde Cloudera es proveedor soportado y tiene un montón de parches no incluido en el Hadoop instalar, creo que puede ser digno de mirar.

Una vez que elijo el marco MatpReduce, necesito tokenize los documentos (PDF, DOCX, DOC, OLE, etc ...), el índice de ellos, copio el índice a mis instancias Solr, y de alguna manera "activar" para que ellos se pueden buscar en la instancia en ejecución. Creo que esta metodologia es mejor que el envío de documentos a través de la interfaz REST para Solr.

La razón por la que traen .NET en la imagen se debe a que son en su mayoría una tienda de .NET. La única Unix / Java tendremos es Solr y tienen una interfaz que aprovecha la interfaz REST a través de Solrnet.

Según su experiencia, ¿cómo este aspecto la arquitectura? Lo ves las cuestiones / problemas? ¿Qué consejo puede le das?

¿Qué debo no hacer para bajar de tallar búsqueda? Después de leer la documentación Nutch, creo que dijo que no hace tallar, pero puede que no tenga suficiente experiencia en este software para entender lo que está diciendo.

Solución

Por lo general, lo que has descrito es casi exactamente cómo funciona Nutch. Nutch es un rastreo, la indexación, la fusión y el índice de consulta respondiendo conjunto de herramientas que se basa en Hadoop núcleo.

No se debe mezclar Cloudera, Hadoop, Nutch y Lucene. Es muy probable que terminan usando todos ellos:

Nutch es el nombre de la indexación / contestador (como Solr) maquinaria.
Nutch en sí se ejecuta utilizando un Hadoop racimo (que utiliza en gran medida su propio sistema de archivos distribuido, HDFS)
usos Nutch Lucene formato de índices
Nutch incluye una interfaz de responder consulta, que se puede utilizar, o se puede adjuntar un Solr frontend y utilizar índices de Lucene desde allí.
Por último, Cloudera Hadoop distribución (o CDH) es sólo una distribución de Hadoop con varias docenas de parches que se le aplica, para que sea más estable y acondicionarlo algunas características útiles de las ramas de desarrollo. Sí, ya había más probable es que desee usarlo, a menos que tenga una razón para no hacerlo (por ejemplo, si desea una punta de lanza Hadoop 0,22 tronco).

En general, si usted está buscando en una solución de rastreo del motor / de búsqueda ya hecha, entonces Nutch es un camino a seguir. Nutch ya incluye una gran cantidad de plugins para analizar e indexar varios tipos locos de documentos, incluye documentos de MS Word, PDF, etc, etc.

Yo personalmente no veo mucho sentido en el uso de tecnologías .NET aquí, pero si se siente cómodo con él, se puede hacer front-end en .NET. Sin embargo, trabajar con las tecnologías de Unix puede sentir bastante incómoda para el equipo de Windows-céntrico, así que si había logrado un proyecto de este tipo, que había considerado alternativas, especialmente si su tarea de rastreo y la indexación es limitado (es decir, que no quiere arrastrarse toda la Internet para algún propósito).

Otros consejos

¿Has mirado en Lucandra https://github.com/tjake/Lucandra un respaldo basado Cassandra fin para Lucense / Solr que se puede utilizar Hadoop para poblar la tienda Cassandra con el índice de sus datos.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow