Pregunta

busco una solución rastreador web, que puede es lo suficientemente maduro y puede ser simplemente extendido. Estoy interesado en las siguientes características ... o la posibilidad de extender el rastreador para encontrarse con ellos:

  • en parte sólo para leer los feeds de varios sitios
  • para desechar el contenido de estos sitios
  • si el sitio tiene un archivo me gustaría rastrear e indexar tan bien
  • el rastreador debe ser capaz de explorar parte de la red para mí y debe ser capaz de decidir qué sitios corresponden con los criterios dados
  • debería ser capaz de notificar, si no se encontraron cosas posiblemente a juego mi interés
  • el rastreador no debe matar a los servidores atacándola por demasiadas peticiones, que debería estar haciendo el rastreo inteligente
  • el rastreador debe ser robusto frente a sitios anormales y servidores

Las cosas anteriores se pueden hacer uno por uno sin gran esfuerzo, pero estoy interesado en cualquier solución que proporcionan un rastreador personalizable, extensible. He oído de nutch, pero muy seguro sobre el proyecto hasta ahora. ¿Tiene experiencias con él? ¿Me puede recomendar alternativas?

¿Fue útil?

Solución

Una búsqueda rápida en GitHub vomitó Anemone , un marco de tela de araña que parece adaptarse a sus necesidades - en particular extensiblility. Escrita en Ruby.
Espero que vaya bien!

Otros consejos

He usado extensivamente Nutch, cuando yo estaba construyendo el índice proyecto de código abierto para mi inicio Krugle. Es difícil de personalizar, siendo un diseño bastante monolítica. Hay una arquitectura plug-in, pero la interacción entre plug-ins y el sistema es complicado y frágil.

Como resultado de esa experiencia, y que necesitan algo con más flexibilidad, que comenzó el proyecto Bixo - un conjunto de herramientas de minería web. http://openbixo.org .

Ya sea adecuado para usted depende de la ponderación de factores tales como:

  1. ¿Cuánto flexibilidad que necesita (+)
  2. ¿Cómo madura que debería ser (-)
  3. Si usted necesita la capacidad de escalar (+)
  4. Si se siente cómodo con Java / Hadoop (+)

Heritrix . Es muy flexible y yo diría se prueba el más batalla de libre disposición rastreador de código abierto, ya que es el que utiliza el Archivo de Internet.

Usted debe ser capaz de encontrar algo que se adapte a sus necesidades aquí .

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top