Pregunta

Busco un buen robot de código abierto para determinar una cierta calidad, a menudo se requiere para la indexación de Google.

Por ejemplo

  • encontrar títulos duplicados
  • enlaces no válidos (jspider hacen esto, y creo que mucho más lo hará)
  • exactamente la misma página, pero diferentes direcciones URL
  • etc, etc, donde es igual a Google reqs calidad.
¿Fue útil?

Solución

Sus necesidades son muy específicas por lo que es muy poco probable que es un producto de código abierto que hace exactamente lo que desea.

Hay, sin embargo, muchos marcos de código abierto para la construcción de los rastreadores web. La que utilice depende de la preferencia de idioma.

Por ejemplo:

En general, estos marcos ofrecerán clases para el rastreo y raspar las páginas de un sitio en base a las reglas que dan, pero luego le toca a usted para extraer los datos que necesita enganchando en su propio código.

Otros consejos

Google Webmaster Tools es un servicio basado en la web (en lugar de un robot a la carta), y que no hace todo lo solicitado - pero que sí hace parte de ella y un montón de cosas que no has pedido, y - siendo de Google - que hay duda coincide con su extraña "etc, etc, donde es igual a Google reqs calidad." mejor que ningún otro lo hará.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top