Pregunta

He notado en mis rastreadores que los robots están visitando MUCHO mi sitio. ¿Debo cambiar o editar mi archivo robots.txt o cambiar algo? ¿No está seguro de si eso es bueno, porque están indexando o qué?

¿Fue útil?

Solución

  

¿Debo cambiar o editar mi archivo robots.txt o cambiar algo?

Depende del bot. Algunos bots ignorarán obedientemente robots.txt. Tuvimos un problema similar hace 18 meses con el robot de Google AD porque nuestro cliente estaba comprando tantos anuncios. Los bots de Google AD (según lo documentado) ignorarán las exclusiones de comodines (*), pero escucharán ignoraciones explícitas.

Recuerde, los bots que honran robots.txt simplemente no rastrearán su sitio. Esto no es deseable si desea que tengan acceso a sus datos para la indexación.

Una mejor solución es limitar o suministrar contenido estático a los bots.

  

¿No está seguro si eso es bueno, porque están indexando o qué?

Podrían estar indexando / raspando / robando. De todos modos lo mismo. Lo que creo que desea es acelerar el procesamiento de su solicitud http en función de UserAgents. Cómo hacerlo depende de su servidor web y el contenedor de la aplicación.

Como se sugiere en otras respuestas, si el bot es malicioso, entonces deberá encontrar el patrón UserAgent y enviarles 403 prohibidos. O, si los bots maliciosos cambian dinámicamente las cadenas de agente de usuario, tiene otras dos opciones:

  • Agentes de usuario de la lista blanca, p. ej. cree un filtro de agente de usuario que solo acepte ciertos agentes de usuario. Esto es muy imperfecto.
  • Prohibición de IP: el encabezado http contendrá la IP de origen. O, si está recibiendo DOS (ataque de denegación de servicio), entonces tiene mayores problemas

Otros consejos

Realmente no creo que cambiar el archivo robots.txt vaya a ayudar, porque solo los robots BUENOS lo cumplen. Todos los demás lo ignoran y analizan su contenido como les plazca. Personalmente, uso http://www.codeplex.com/urlrewriter para deshacerme de los robots indeseables respondiendo con un mensaje prohibido si se encuentran.

Los robots de spam no se preocupan por robots.txt. Puede bloquearlos con algo como mod_security (que es un complemento Apache bastante bueno por derecho propio). O simplemente podría ignorarlos.

Puede que tenga que usar .htaccess para negar que algunos bots se atornillen a sus registros. Ver aquí: http://spamhuntress.com/2006/02/ 13 / otro-hambriento-java-bot /

Tuve muchos robots de Java rastreando mi sitio, agregando

SetEnvIfNoCase User-Agent ^ Java / 1. javabot = sí
SetEnvIfNoCase User-Agent ^ Java1. javabot = sí
Negar de env = javabot

los hizo detenerse. Ahora solo obtienen 403 una vez y eso es todo :)

Una vez trabajé para un cliente que tenía un número de "comparación de precios" bots golpeando el sitio todo el tiempo. El problema era que nuestros recursos de back-end eran escasos y costaban dinero por transacción.

Después de tratar de combatir algunos de estos durante algún tiempo, pero los bots seguían cambiando sus características reconocibles. Terminamos con la siguiente estrategia:

Para cada sesión en el servidor determinamos si el usuario estaba haciendo clic demasiado rápido en algún momento. Después de un número dado de repeticiones, establecemos el " isRobot " marque a verdadero y simplemente reduzca la velocidad de respuesta dentro de esa sesión agregando durmientes. No le dijimos al usuario de ninguna manera, ya que él simplemente comenzaría una nueva sesión en ese caso.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top