Evitar que los datos del sitio se rastreen y se copien

https://stackoverflow.com/questions/177479

05-07-2019
|

Pregunta

Estoy estudiando la creación de un sitio de contenido con posiblemente miles de entradas diferentes, accesibles por índice y por búsqueda.

¿Cuáles son las medidas que puedo tomar para evitar que rastreadores maliciosos roben todos los datos de mi sitio? Estoy menos preocupado por el SEO, aunque no quisiera bloquear todos los rastreadores legítimos.

Por ejemplo, pensé en cambiar aleatoriamente pequeños fragmentos de la estructura HTML utilizada para mostrar mis datos, pero creo que realmente no sería efectivo.

Solución

Cualquier sitio que sea visible por los ojos humanos es, en teoría, potencialmente descargable. Si va a tratar de ser accesible, entonces esto, por definición, debe ser el caso (¿de qué otra manera los navegadores orales podrán entregar su contenido si no es legible por una máquina)?

Tu mejor apuesta es mirar la marca de agua de tu contenido, de modo que al menos si se rasga puedes apuntar a las marcas de agua y reclamar la propiedad.

Otros consejos

Entre esto:

¿Cuáles son las medidas que puedo tomar para evitar que los rastreadores maliciosos copien
?

y esto:

No me gustaría bloquear todos los rastreadores legítimos.

estás pidiendo mucho. El hecho es que, si vas a intentar bloquear los raspadores maliciosos, terminarás bloqueando todos los " buenos " los rastreadores también.

Debes recordar que si la gente quiere eliminar tu contenido, se esforzará mucho más manualmente que un robot de búsqueda ... Así que haz que tus prioridades sean las correctas. Tienes dos opciones:

Deja que los campesinos de internet te roben el contenido. Mantente atento (busca en Google algunas de tus frases más únicas) y envía solicitudes de eliminación a los ISP. Esta elección apenas tiene un impacto en su cuenta aparte del tiempo.
Use AJAX y el cifrado continuo para solicitar todo el contenido del servidor. Deberá mantener el método cambiando, o incluso al azar, para que cada carga de página tenga un esquema de cifrado diferente. Pero incluso este will se romperá si alguien quiere hacerlo. También dejará la cara de los motores de búsqueda y, por lo tanto, recibirá un golpe en el tráfico de usuarios reales.

Los buenos rastreadores seguirán las reglas que especifique en su archivo robots.txt, las maliciosas no. Puedes configurar una " trampa " Para los robots malos, como se explica aquí: http://www.fleiner.com/bots/ .
Pero, de nuevo, si pone su contenido en Internet, creo que es mejor para todos si es tan fácil de encontrar (de hecho, está publicando aquí y no en algún foro aburrido donde intercambian expertos sus opiniones)

De manera realista, no puede detener los rastreadores maliciosos, y es probable que cualquier medida que establezca para evitarlos dañe a sus usuarios legítimos (además de agregar entradas a robots.txt para permitir la detección)

Entonces, lo que debe hacer es planear que el contenido sea robado (es muy probable que ocurra de una forma u otra) y entender cómo lidiará con las copias no autorizadas.

La prevención no es posible, y será una pérdida de tiempo intentarlo.

La única forma segura de asegurarse de que el contenido de un sitio web no sea vulnerable a la copia es desconectar el cable de red ...

Para detectarlo, use algo como http://www.copyscape.com/ puede ayudar.

¡Ni siquiera intentes erigir límites en la web!

Realmente es tan simple como esto.

Todas las medidas posibles para desalentar la copia (además de un archivo de texto muy estricto) dañarán a sus usuarios. Los captchas son más dolor que ganancia. La comprobación del agente de usuario apaga los navegadores inesperados. Lo mismo es cierto para " inteligente " Trucos con javascript.

Por favor, mantenga la web abierta. Si no desea que se saque nada de su sitio web, no lo publique allí. Las marcas de agua pueden ayudarlo a reclamar la propiedad, pero eso solo ayuda cuando quiere demandar después de que se haga el daño.

La única forma de detener un sitio que se está rasgando con una máquina es hacer que el usuario demuestre que es humano.

Podría hacer que los usuarios realicen una tarea que sea fácil para los humanos y difícil para las máquinas, por ejemplo: CAPTCHA. Cuando un usuario llega por primera vez a su sitio, presente un CAPTCHA y solo permita que proceda una vez que se haya completado. Si el usuario comienza a moverse de una página a otra, vuelva a verificar demasiado rápido.

Esto no es 100% efectivo y los hackers siempre intentan romperlos.

Alternativamente, podrías hacer respuestas lentas. No es necesario hacer que se arrastren, pero elija una velocidad que sea razonable para los humanos (esto sería muy lento para una máquina). Esto solo hace que les lleve más tiempo raspar su sitio, pero no imposible.

OK. Fuera de ideas.

En resumen: no puedes evitar que se rasgue. Los bots maliciosos comúnmente usan agentes de usuario de IE y son bastante inteligentes en la actualidad. Si desea que su sitio sea accesible al número máximo (es decir, lectores de pantalla, etc.) no puede usar javascript o uno de los complementos populares (flash) simplemente porque pueden inhibir el acceso de un usuario legítimo.

Tal vez podría tener un trabajo cron que seleccione un fragmento aleatorio de su base de datos y lo busque en Google para verificar si hay coincidencias. Luego, puede intentar apoderarse del sitio ofensivo y solicitar que eliminen el contenido.

También puede controlar la cantidad de solicitudes de una IP determinada y bloquearla si pasa un umbral, aunque es posible que tenga que incluir en la lista blanca los bots legítimos y no sería útil para una red de bots (pero si está en contra de una red de bots, quizás ripear no sea tu mayor problema).

Si estás haciendo un sitio público, entonces es muy difícil. Existen métodos que involucran la creación de secuencias de comandos del lado del servidor para generar contenido o el uso de no texto (Flash, etc.) para minimizar la posibilidad de que se copie.

Pero, para ser honesto, si considera que su contenido es tan bueno, solo protéjalo con una contraseña y elimínelo del ámbito público.

Mi opinión es que el objetivo principal de la web es propagar contenido útil a la mayor cantidad de personas posible.

Si el contenido es público y está disponible gratuitamente, incluso con la limitación de la vista de página o lo que sea, no hay nada que puedas hacer. Si necesita registro y / o pago para acceder a los datos, puede restringirlos un poco, y al menos puede ver quién lee qué e identificar a los usuarios que parecen estar rastreando toda su base de datos.

Sin embargo, creo que deberías enfrentar el hecho de que así es como funciona la red, no hay muchas maneras de evitar que una máquina lea lo que un humano puede. Por supuesto, dar salida a todo su contenido como imágenes desalentaría la mayoría, pero luego el sitio ya no es accesible, y mucho menos el hecho de que incluso los usuarios no discapacitados no podrán copiar y pegar nada, lo que puede ser realmente molesto.

Todo esto suena como los sistemas de protección de juegos / DRM: molestar a los usuarios legítimos solo para evitar un mal comportamiento que de todos modos no puedes evitar.

Puedes probar a usar Flash / Silverlight / Java para mostrar todos los contenidos de tu página. Eso probablemente detendría a la mayoría de los rastreadores en sus pistas.

Solía ??tener un sistema que bloquearía o permitiría según el encabezado User-Agent. Se basa en la configuración del rastreador de su User-Agent, pero parece que la mayoría de ellos lo hacen.

No funcionará si usan un encabezado falso para emular un navegador popular, por supuesto.

Use donde sea posible con validadores humanos e intente usar algún marco (MVC). El software de extracción de sitios a veces no puede copiar este tipo de página. También detecte el agente de usuario, al menos reducirá el número de posibles rasgadores

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow