¿Recomendaciones para una herramienta de araña para usar con Lucene o Solr? [cerrado]

https://stackoverflow.com/questions/282654

08-07-2019
|

Pregunta

¿Qué es un buen rastreador (araña) para usar contra documentos HTML y XML (locales o basados ??en la web) y que funciona bien en el espacio de solución Lucene / Solr? Podría estar basado en Java pero no tiene que serlo.

Solución

En mi opinión, este es un agujero bastante significativo que está frenando la adopción generalizada de Solr. El nuevo DataImportHandler es un buen primer paso para importar datos estructurados, pero no hay una buena canalización de ingestión de documentos para Solr. Nutch funciona, pero la integración entre el rastreador Nutch y Solr es algo torpe.
He probado todos los rastreadores de código abierto que puedo encontrar, y ninguno de ellos se integra de forma inmediata con Solr.
Vigila OpenPipeline y Apache Tika.

Otros consejos

He intentado nutch, pero fue muy difícil integrarse con Solr. Echaría un vistazo a Heritrix. Tiene un extenso sistema de complementos para facilitar la integración con Solr, y es mucho más rápido en el rastreo. Hace un uso extensivo de hilos para acelerar el proceso.

Te sugiero que eches un vistazo a Nutch para inspirarte:

Nutch es un software de búsqueda web de código abierto. Se basa en Lucene Java, agregando detalles web, como un rastreador, una base de datos de gráfico de enlaces, analizadores para HTML y otros formatos de documentos, etc.

Verifique también Drogas Apache [ http://incubator.apache.org/droids/font> - esto espera no ser un simple marco de araña / rastreador / trabajador.

Es nuevo y aún no es fácil de usar (requiere algunos ajustes para comenzar a funcionar), pero es bueno vigilarlo.

Nutch podría ser tu pareja más cercana, pero no es demasiado flexible.

Si necesitas algo más, tendrás que hackear tu propio rastreador. No es tan malo como parece, cada idioma tiene bibliotecas web, por lo que solo necesita conectar algún administrador de colas de tareas con el descargador HTTP y el analizador HTML, no es realmente mucho trabajo. Lo más probable es que pueda salirse con una sola caja, ya que el rastreo es principalmente intencional al ancho de banda, no intensivo de CPU.

http://arachnode.net

C #, pero produce archivos de índice consumibles Lucene (Java y C #).

¿Alguien intentó con Xapian? Parece mucho más rápido que solr y está escrito en c ++.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow