¿Qué es una buena herramienta Web Crawler [cerrado]

https://stackoverflow.com/questions/176820

05-07-2019
|

Pregunta

Necesito indexar una gran cantidad de páginas web, ¿qué buenas utilidades de webcrawler existen? Preferiblemente busco algo con lo que .NET pueda hablar, pero eso no es un showstopper.

Lo que realmente necesito es algo que puedo dar a la URL del sitio a & amp; Seguirá todos los enlaces y almacenará el contenido para la indexación.

Solución

HTTrack - http://www.httrack.com/ - es una muy buena copiadora de sitios web . Funciona bastante bien. Lo he estado utilizando durante mucho tiempo.

Nutch es un rastreador web (el rastreador es el tipo de programa que está buscando) - http: / /lucene.apache.org/nutch/ - que utiliza una utilidad de búsqueda de primera categoría Lucene.

Otros consejos

Crawler4j es un rastreador Java de código abierto que proporciona una interfaz sencilla para rastrear la Web. Puede configurar un rastreador web multiproceso en 5 minutos.

Puede configurar su propio filtro para visitar páginas o no (urls) y definir alguna operación para cada página rastreada según su lógica.

Algunas razones para seleccionar crawler4j;

Estructura multihilo,
Puedes configurar la profundidad para que sea rastreada,
Es basado en Java y de código abierto,
Control de enlaces redundantes (urls),
Puede establecer el número de páginas que se rastrearán,
Puedes configurar el tamaño de la página para que sea rastreado,
Documentación suficiente

Searcharoo.NET contiene una araña que rastrea e indexa el contenido, y un motor de búsqueda para usarlo. Debería ser capaz de encontrar su camino en el código Searcharoo.Indexer.EXE para atrapar el contenido a medida que se descarga, y agregar su propio código personalizado desde allí ...

Es muy básico (se incluye todo el código fuente y se explica en seis artículos de CodeProject, el más reciente de los cuales se encuentra aquí Searcharoo v6 ): la araña sigue los enlaces, imagemaps, imágenes, obedece las directivas de ROBOTS, analiza algunos tipos de archivos que no son HTML. Está destinado a sitios web únicos (no a toda la web).

Nutch / Lucene es casi seguramente una solución más robusta / de calidad comercial, pero no he visto su código. No está seguro de lo que desea lograr, pero también ha visto Microsoft Search Server Express de Microsoft ?

Descargo de responsabilidad: soy el autor de Searcharoo; simplemente ofreciéndola aquí como una opción.

Sphider es bastante bueno. Es PHP, pero podría ser de alguna ayuda.

Utilizo software de raspado web de Mozenda . Fácilmente puede hacer que rastree todos los enlaces y obtenga toda la información que necesita y es una excelente Software para el dinero.

No he usado esto todavía, pero esto Parece interesante. El autor lo escribió desde cero y publicó cómo lo hizo. El código para él también está disponible para descargar.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow