Bot prevenir el rastreo de ciertas áreas del sitio

https://stackoverflow.com/questions/2225971

19-09-2019
|

Pregunta

No sé mucho sobre SEO y cómo las arañas web de trabajo, por lo perdono mi ignorancia aquí. Estoy creando un sitio (usando ASP.NET MVC), que tiene áreas que muestra la información recuperada de la base de datos. Los datos es única para el usuario, lo que no hay memoria caché de salida del lado del servidor real pasando. Sin embargo, dado que los datos pueden contener cosas que el usuario no desee visualizar desde los motores de búsqueda, me gustaría evitar cualquier arañas accedan a la página de resultados de búsqueda. ¿Hay algunas acciones especiales que debo tomar para asegurarse de que el directorio de resultados de búsqueda no se rastrea? Además, sería una araña incluso rastrear una página que se genera dinámicamente y que cualquier acción que la prevención de ciertos directorios que va a la búsqueda desordenes mi posicionamiento en los buscadores?

Edit: Debo añadir, estoy leyendo sobre protocolo de robots.txt, pero depende de la cooperación del rastreador web. Sin embargo, también me gustaría evitar que cualquier usuario de minería de datos que va a ignorar el archivo robots.txt.

Agradezco cualquier ayuda!

Solución

Puede prevenir algunos clientes maliciosos de golpear a su servidor demasiado mediante la implementación de estrangulamiento en el servidor. "Lo sentimos, su IP ha hecho demasiadas peticiones a este servidor en los últimos minutos. Por favor, inténtelo de nuevo más tarde." En la práctica, sin embargo, asume que no se puede dejar de un usuario verdaderamente malicioso sin pasar por ningún mecanismo de estrangulamiento que se pone en su lugar.

Teniendo en cuenta que, esta es la pregunta más importante:

¿Se siente cómodo con la información que usted está haciendo disponible para todo el mundo lo vea? Son usuarios cómodo con esto?

Si la respuesta a estas preguntas es no, entonces usted debe ser garantizar que sólo los usuarios autorizados puedan ver la información sensible. Si la información no es particularmente sensible, pero que no quieren los clientes que se arrastra, el acelerador es probablemente una buena alternativa. ¿Es incluso probable que usted va a ser arrastrado de todos modos? Si no es así, robots.txt debe estar muy bien.

Otros consejos

Parece como que tiene 2 números.

En primer lugar una preocupación acerca de ciertos datos que aparecen en los resultados de búsqueda. El segundo acerca de los datos relacionados con el usuario malicioso o sin escrúpulos usuario de cosecha.

El primer número será cubierto por el uso apropiado de un archivo robots.txt como todos los grandes motores de búsqueda honor a esto.

La segunda cuestión parece más que ver con la privacidad de los datos. La primera pregunta que surge de inmediato a la mente es: Si hay información de usuario que la gente que no quiera que se muestra, ¿por qué estás haciendo que esté disponible en todo
? ¿Cuál es la política de privacidad de esos datos?
¿Los usuarios tienen la capacidad de controlar lo que se pone a disposición información?
Si la información es potencialmente sensible, pero importante para el sistema podría estar restringido por lo que sólo está disponible para los usuarios registrados?

Consulte el de exclusión de robots estándar. Es un archivo de texto que se pone en su sitio que le dice a un bot lo que puede y no puede indexar. También tendrá que hacer frente a lo que sucede si un bot no respeta el archivo robots.txt.

archivo robots.txt como se ha mencionado. Si eso no es suficiente, entonces se puede:

Bloquear desconocidos AgentesDeUsuario - difícil de mantener, fácil para un robot para la forja de un navegador (aunque la mayoría de los robots legítimos quieres!)
Bloque direcciones IP desconocida - no es útil para un sitio público
Requerir inicio de sesión
conexiones de usuario del acelerador -. Informaciones difíciles de sintonizar, usted todavía estará divulgando

Tal vez mediante el uso de una combinación. De cualquier manera es una solución de compromiso, si el público puede navegar a la misma, por lo que puede un robot. Asegúrese de no bloquear Nueva York para principiantes en sus intentos de bloquear los robots.

unas pocas opciones:

obligar al usuario a iniciar sesión para ver el contenido
añadir una página de CAPTCHA antes del contenido
contenido embed Flash
carga dinámicamente con JavaScript

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow