Pregunta

Estoy desarrollando un sitio web y soy sensible a la gente pantalla de raspado de mis datos. Yo no estoy preocupado por el raspado de una o dos páginas -. Estoy más preocupado por alguien raspado de miles de páginas como el agregado de que los datos es mucho más valioso que un pequeño porcentaje sería

puedo imaginar estrategias para bloquear a los usuarios en función del tráfico pesado desde una sola dirección IP, pero el Tor red conjuntos de hasta muchos circuitos que esencialmente significan aparece de tráfico de un solo usuario para provienen de diferentes direcciones IP a través del tiempo.

Sé que es posible detectar el tráfico de Tor como cuando he instalado Vidalia con su extensión para Firefox , google.com me presentó con un código de imagen.

Así que, ¿cómo puedo detectar tales peticiones?

(de mi página web en ASP.NET MVC 2, pero creo que cualquier enfoque utilizado en este caso sería independiente del idioma)

¿Fue útil?

Solución

  

Estoy desarrollando un sitio web y am   sensible a la gente pantalla de raspado de mi   datos

olvidarse de él. Si está en la web y alguien lo quiere, será imposible para que dejen de conseguirlo. Los más restricciones que se aplican por, cuanto más se arriesga a arruinar la experiencia de usuario para los usuarios legítimos, que se espera que sea la mayor parte de su audiencia. También hace que el código más difícil de mantener.

voy a publicar las contramedidas a cualquier idea futuras respuestas proponen.

Otros consejos

Se puede comprobar su dirección IP con una lista de Tor salida Nodos . Sé que es un hecho, esta será lenta ni siquiera a alguien que esté interesado en raspando su sitio. Tor es demasiado lento, la mayoría de los raspadores ni siquiera lo consideran. Hay decenas de miles de servidores proxy abiertos que se pueden escanear fácilmente a favor o en una lista puede ser comprado. Los servidores proxy son agradables porque se puede enhebrar ellos o girar la tapa si su petición es golpeado.

Google ha sido abusado por los usuarios de Tor y la mayoría de los nodos de salida están en la lista de Google negro y es por eso que está recibiendo un código de imagen.

Voy a ser perfectamente claro:. No hay nada que pueda hacer para evitar que alguien SCRAPING su sitio

Por el diseño de los componentes de la red Tor, no es posible para el receptor de averiguar si el solicitante es la fuente original o si es sólo una solicitud remitida.

El comportamiento que viste con Google fue probablemente causado por una medida de seguridad diferente. Google detecta si un usuario conectado cambia su IP y presenta un código de imagen por si acaso para evitar la interceptación perjudicial y también permitir la continuación de la sesión si un usuario autenticado realmente cambió su IP (por re-inicio de sesión al ISP, etc.).

Yo sé que esto es viejo, pero tengo aquí desde una búsqueda en Google por lo que pensé que podría llegar a las preocupaciones de la raíz en la pregunta aquí. Desarrollo aplicaciones web, sino que también hago una tonelada de abusar y explotar otros pueblos. Probablemente soy el tipo que está tratando de mantener a cabo.

tráfico tor Detectando realmente no es la ruta que desea ir aquí. Se puede detectar una cantidad buena de servidores proxy abiertos mediante el análisis de los encabezados de solicitud, pero que tenga Tor, proxies de anonimato altos, calcetines proxies, VPN baratos comercializan directamente a los spammers, botnets y otras innumerables formas de romper los límites de frecuencia. También

Si su preocupación principal es un efecto DDoS, no se preocupe por ello. Los ataques DDoS reales tener ya sea muscular o alguna vulnerabilidad que pone la tensión en su servidor. No importa qué tipo de sitio que tiene, va a ser inundado con éxitos de arañas, así como malas personas escaneo de vulnerabilidades. Sólo un hecho de la vida. De hecho, este tipo de lógica en el servidor casi nunca se escala bien y puede ser el punto único de fallo que deja abierto a un verdadero ataque DDoS.

Esto también puede ser un punto único de fallo para sus usuarios finales (incluyendo los robots amigables). Si un usuario o cliente legítimo se bloquea tienes una pesadilla de servicio al cliente y si el rastreador se bloquea equivocada que está diciendo adiós a su tráfico de búsqueda.

Si realmente no quiere que nadie agarrando sus datos, hay algunas cosas que puede hacer. Si se trata de un blog de contenido o algo así, en general, decir, o bien no se preocupe por ella o tener resumen sólo los canales RSS si necesita alimentos en absoluto. El peligro con el contenido del blog raspado es que en realidad es bastante fácil de tomar una copia exacta de un artículo, enlaces de spam a ella y el rango mientras golpeando el cabo original de los resultados de búsqueda. Al mismo tiempo, porque es muy fácil gente no se va a poner esfuerzo en la orientación sitios específicos cuando se puede raspar los canales RSS a granel.

Si su sitio es más de un servicio con contenido dinámico que es otra historia. De hecho, me raspo una gran cantidad de sitios como este de "robar" enormes cantidades de datos estructurados de propiedad, pero hay opciones para hacer que sea más difícil. Puede limitar la solicitud por IP, pero eso es fácil de recorrer con los proxies. Por alguna protección real ofuscación relativamente simple va un largo camino. Si intenta hacer algo como raspar los resultados de Google o descargar videos de YouTube se dará cuenta que hay una gran cantidad de técnicas de ingeniería inversa. Hago ambas cosas, pero el 99% de las personas que intentan fracasan porque carecen de los conocimientos necesarios para hacerlo. Pueden raspar proxies de moverse límites IP pero no están violando ningún tipo de cifrado.

A modo de ejemplo, por lo que yo recuerdo una página de resultados de Google viene con javscript ofuscado que consigue inyecta en el DOM al cargar la página, a continuación, una especie de fichas están situados a lo que hay que analizar a cabo. Entonces hay una petición AJAX con esas fichas que vuelve ofuscado JS o JSON que se decodifican para construir los resultados y así sucesivamente y así sucesivamente. Esto no es difícil de hacer en su final como el desarrollador, pero la gran mayoría de los ladrones potenciales no puede manejarlo. La mayoría de los que pueden no va a poner en el esfuerzo. Lo hago para envolver los servicios muy valiosos Google, pero para la mayoría de otros servicios que acabo de pasar a algo de fruta que cuelga baja a diferentes proveedores.

Espero que esto es útil para cualquiera que venga a través de ella.

Creo que el enfoque en la forma en que es 'imposible' para evitar que un usuario determinado y conocimientos técnicos por el raspado de una página web se le da demasiada importancia. @Drew Noakes establece que la página web contiene información que cuando se toma en conjunto tiene algo de 'valor'. Si un sitio web tiene datos agregados que sea fácilmente accesible por los usuarios anónimos no restringidos, entonces sí, evitando el raspado puede estar cerca de 'imposible'.

Yo sugeriría que el problema a resolver no es la forma de evitar que los usuarios raspando los datos agregados, sino más bien lo que se aproxima podría ser utilizado para eliminar los datos agregados de acceso público; eliminando de esta manera el objetivo de los rascadores sin la necesidad de hacer lo 'imposible', prevenir el desguace.

Los datos agregados debe ser tratada como información propietaria de la empresa. La información exclusiva compañía en general no está disponible públicamente a los usuarios anónimos en forma agregada o crudos. Yo diría que la solución para evitar la toma de datos valiosos sería restringir el acceso y la restricción a los datos, no para evitar el desguace de la misma cuando se presenta al usuario.

1] Las cuentas de usuario / acceso - nadie debe tener acceso a todos los datos en un plazo de un período de tiempo determinado (específico de datos / dominio). Los usuarios deben poder acceder a los datos que son relevantes para ellos, pero es evidente a partir de la pregunta, ningún usuario tendrían un propósito legítimo para consultar todos los datos agregados. Sin conocer los detalles específicos del sitio, sospecho que un usuario legítimo puede necesitar solamente un pequeño subconjunto de los datos dentro de un cierto período de tiempo. Solicitar que exceden significativamente las necesidades típicas de usuario deben ser bloqueadas o alternativamente estrangulado, así como para hacer raspado consume tiempo prohibitivamente y los datos desechados potencialmente rancio.

2] Los equipos de operaciones a menudo controlar las estadísticas para asegurar que los grandes sistemas distribuidos y complejos son saludables. Por desgracia, se hace muy difícil identificar las causas de los problemas esporádicos e intermitentes, y con frecuencia incluso es difícil identificar que existe un problema en contraposición a las fluctuaciones normales de operación. Los equipos de operaciones a menudo se enfrentan con los datos históricos analizados estadísticos tomados de muchos numerosas métricas, y compararlos con los valores actuales para ayudar a identificar las desviaciones significativas en la salud del sistema, ya sean sistema de tiempo de preparación, carga, utilización de la CPU, etc.

Del mismo modo, los usuarios peticiones de datos en cantidades que son significativamente mayores que la norma podría ayudar a identificar a los individuos que son propensos a ser el desguace de datos; este enfoque, incluso se puede automatizar e incluso ampliarse para buscar a través de múltiples cuentas para los patrones que indican desguace. Usuario 1 raspaduras 10%, Usuario 2 raspa el 10%, el usuario 3 raspaduras la siguiente 10%, etc ... Patrones como que (y otros) podrían proporcionar fuertes indicadores de uso malicioso del sistema por un solo individuo o grupo que utiliza varias cuentas

3] No haga que los datos agregados prima puede acceder directamente a los usuarios finales. Detalles importan aquí, pero en pocas palabras, los datos deben residir en los servidores de back-end, y se recuperan utilizando alguna API específica de dominio. Una vez más, me asumiendo que usted no está solo sirviendo datos en bruto, sino más bien responder a las solicitudes de los usuarios para algunos subconjuntos de los datos. Por ejemplo, si los datos que ha se detalla demografía de la población de una región en particular, un usuario final legítimo estaría interesado en sólo un subconjunto de esos datos. Por ejemplo, un usuario final puede querer saber las direcciones de los hogares con adolescentes que residen con sus padres en la vivienda de unidades múltiples o los datos en una ciudad o condado específico. solicitud de un tipo requeriría el procesamiento de los datos agregados para producir un conjunto de datos resultante que es de interés para el usuario final. Sería demasiado difícil para raspar cada conjunto de datos resultante recuperado de numerosas permutaciones posibles de la consulta de entrada y reconstruir los datos agregados en su entirety. Un rascador también estaría limitada por la seguridad del sitio, teniendo en cuenta el # de solicitudes / hora, el tamaño total de los datos del conjunto de datos resultante, y otros marcadores potenciales. Una API de incorporar el conocimiento específico de dominio bien desarrollada sería crítico para asegurar que la API es lo suficientemente amplio como para servir a su propósito, pero no excesivamente general a fin de devolver grandes vertederos de datos en bruto.

La incorporación de las cuentas de usuario en el sitio, el establecimiento de líneas de base de uso para los usuarios, la identificación y el estrangulamiento de los usuarios (u otro mitigación se acerca) que se desvían significativamente de los patrones de uso típicos, y la creación de una interfaz para la solicitud de procesado / conjuntos de resultados digeridos (vs datos agregados en bruto) crearían complejidades significativas para personas malintencionadas la intención de robar sus datos. Puede que sea imposible evitar el desguace de datos del sitio web, pero la 'imposibilidad' se basa en ser fácilmente accesible para el rascador de los datos agregados. No se puede raspar lo que no se puede ver. Así que a menos que sus datos agregada es texto sin procesar crudos (por ejemplo, la biblioteca de libros electrónicos) los usuarios finales no deben tener acceso a los datos agregados primas. Incluso en el ejemplo e-libro de la biblioteca, desviación significativa de los patrones de uso aceptables tales como solicitar gran número de libros en su totalidad debe ser bloqueado o estrangulado.

Se puede detectar el uso de los usuarios de Tor TorDNSEL - https://www.torproject.org /projects/tordnsel.html.en .

Sólo puede utilizar esta línea de comandos / biblioteca - https://github.com/assafmo/IsTorExit .

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top