¿Cómo hago para bloquear raspado web sin bloquear los robots se comportan bien?

https://stackoverflow.com/questions/587896

06-09-2019
|

Pregunta

Estoy construyendo un sitio de comercio electrónico con una gran base de datos de productos. Por supuesto, es agradable cuando los índices de los anteojos todos los productos de la página web. Pero lo que si algún competidor quiere chatarra Web el sitio web y obtener todas las imágenes y descripciones de los productos?

que estaba observando algunos sitios web con listas similares de los productos, y se coloco CAPTCHA, por lo que "sólo los seres humanos" puede leer la lista de productos. El inconveniente es ... es invisible para Google, Yahoo u otro bots "bien educados".

Solución

Usted puede descubrir las direcciones IP de Google y otros están usando por el control de direcciones IP de los visitantes con whois (en la línea de comandos o en un sitio web). Luego, una vez que ha acumulado un alijo de motores de búsqueda de fiar, que puedan en su lista de productos sin el CAPTCHA.

Otros consejos

Si usted está preocupado acerca de los competidores que utilizan su texto o imágenes, ¿qué tal una marca de agua o texto personalizado?

Que tomen sus imágenes y que le tiene su logotipo en su sitio!

Desde una aplicación potencial de la pantalla-scaping puede suplantar el agente de usuario y una referencia HTTP (para imágenes) en la cabecera y el uso de un calendario que es similar a un navegador humana, no es posible detener por completo raspadores profesionales. Pero se puede comprobar estas cosas, sin embargo, y evitar raspado casual. Personalmente encuentro captchas molesto para otra cosa que registrarse en un sitio nada.

Una técnica que puede probar es el método de "Honey Pot": se puede hacer ya sea por la minería a través de los archivos de registro son algunos simples secuencias de comandos

El proceso básico es crear su propia "lista negra" de direcciones IP basadas raspador mediante la búsqueda de direcciones IP que se ven en 2+ productos no relacionados en un período muy corto de tiempo. Lo más probable es estas direcciones IP pertenecen a las máquinas. A continuación, puede hacer una búsqueda inversa de ellos para determinar si son agradables (como GoogleBot o sorber) o malo.

webscrapers bloque no es fácil, y es aún más difícil tratar de evitar falsos positivos.

De todos modos se puede añadir un poco de netrange a una lista blanca, y no servir a cualquier código de imagen a ellos. Todos esos rastreadores conocidos:. Bing, Googlebot, Yahoo, etc .. utilizar siempre netranges específicas cuando se arrastra, y todas esas direcciones IP a resolver búsquedas inversas específicas

algunos ejemplos:

Google IP 66.249.65.32 resuelve a crawl-66-249-65-32.googlebot.com

Bing IP 157.55.39.139 resuelve a msnbot-157-55-39-139.search.msn.com

Yahoo IP 74.6.254.109 resuelve a h049.crawl.yahoo.net

Así que digamos que ' *. Googlebot.com ', ' *. Search.msn.com ' y ' *. Crawl.yahoo.net 'direcciones debe ser la lista blanca.

Hay un montón de listas blancas se puede aplicar a cabo en Internet.

Dicho esto, no creo Captcha es una solución contra los raspadores avanzada, ya que los servicios tales como deathbycaptcha.com o 2captcha.com promesa de solucionar cualquier tipo de código de imagen en cuestión de segundos.

Por favor, eche un vistazo a nuestra wiki http://www.scrapesentry.com/scraping-wiki/ escribimos muchos artículos sobre cómo prevenir, detectar y bloquear web raspadores.

Tal vez simplificar excesivamente, pero si su preocupación es sobre el rendimiento del servidor a continuación, proporcionando una API que disminuiría la necesidad de raspadores, y ahorrar tiempo de procesador de banda / anchura.

Otros pensamientos enumerados aquí:

http: // blog.screen-scraper.com/2009/08/17/further-thoughts-on-hindering-screen-scraping/

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow