Como eu faço para o bloco de Web raspagem sem bloquear Bem comportado bots?

https://stackoverflow.com/questions/587896

06-09-2019
|

Pergunta

Eu estou construindo um site de e-commerce com um grande banco de dados de produtos. Claro, é bom quando Goggle indexa todos os produtos do site. Mas e se algum concorrente quer Web Scrap o site e obter todas as imagens e descrições de produtos?

Eu estava observando alguns sites com listas semelhantes de produtos, e eles colocam um CAPTCHA, por isso "Somente os seres humanos" pode ler a lista dos produtos. A desvantagem é ... ele é invisível para o Google, Yahoo ou outro "bem comportada" bots.

Solução

Você pode descobrir os endereços IP do Google e outros estão usando, verificando IPs visitante com whois (na linha de comando ou em um web site). Então, uma vez que você acumulou um estoque de motores de busca legítimas, permiti-los em sua lista de produtos sem a CAPTCHA.

Outras dicas

Se você está preocupado com concorrentes que utilizam o seu texto ou imagens, como sobre uma marca d'água ou texto personalizado?

Deixe-os ter suas imagens e você teria o seu logotipo em seu site!

Uma vez que um potencial de aplicação screen-scaping pode falsificar o agente de usuário e HTTP de referência (para imagens) no cabeçalho e usar um calendário que é semelhante a um navegador humano, não é possível parar completamente raspadores profissionais. Mas você pode verificar essas coisas, no entanto, e evitar raspagem casual. Eu pessoalmente acho Captchas irritante para qualquer coisa diferente de se inscrever em um site.

Uma técnica que você pode experimentar é o método "honey pot":. Isso pode ser feito tanto por arquivos de log de mineração são via alguns scripts simples

O processo básico é que você construir seus próprios "lista negra" de raspador de IPs baseados procurando por endereços IP, que olhada 2+ produtos não relacionados em um período muito curto de tempo. As chances são estes IPs pertencem a Machines. Você pode então fazer uma pesquisa inversa sobre eles para determinar se eles são bons (como GoogleBot ou Slurp) ou ruim.

webscrapers bloco não é fácil, e é ainda mais difícil tentar evitar falsos positivos.

De qualquer forma você pode adicionar algum netrange a uma lista branca, e não servem qualquer captcha para eles. Todos esses rastreadores bem conhecidos:. Bing, o Googlebot, Yahoo etc .. uso netranges sempre específicas ao rastrear, e todos esses endereços IP determinação de pesquisas inversas específicas

Alguns exemplos:

Google IP 66.249.65.32 resolve crawl-66-249-65-32.googlebot.com

Bing IP 157.55.39.139 resolve msnbot-157-55-39-139.search.msn.com

Yahoo IP 74.6.254.109 resolve h049.crawl.yahoo.net

Então, vamos dizer que ' *. Googlebot.com ', ' *. Search.msn.com ' e ' *. Crawl.yahoo.net 'endereços devem ser na lista de autorizações.

Há uma abundância de listas brancas que você pode implementar para fora na internet.

Dito isso, eu não acredito que CAPTCHA é uma solução contra raspadores avançados, já que serviços como o deathbycaptcha.com ou 2captcha.com prometem resolver qualquer tipo de captcha em segundos.

Por favor, dê uma olhada em nossa wiki http://www.scrapesentry.com/scraping-wiki/ que escreveu muitos artigos sobre como prevenir, detectar e bloquear web-céus.

Talvez eu over-simplifica, mas se a sua preocupação é sobre o desempenho do servidor, em seguida, fornecendo uma API iria diminuir a necessidade de raspadores, e poupar banda / tempo de processador largura.

Outros pensamentos listados aqui:

http: // blog.screen-scraper.com/2009/08/17/further-thoughts-on-hindering-screen-scraping/

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow