Pergunta

Não sei muito sobre SEO e como as aranhas da web funcionam, então perdoe minha ignorância aqui. Estou criando um site (usando asp.net-mvc) que possui áreas que exibem informações recuperadas do banco de dados. Os dados são exclusivos para o usuário, portanto, não há cache de saída do lado do servidor real. No entanto, como os dados podem conter as coisas que o usuário pode não ter exibido nos resultados dos mecanismos de pesquisa, gostaria de impedir que qualquer aranhas acesse a página de resultados de pesquisa. Existem ações especiais que devo tomar para garantir que o diretório de resultados de pesquisa não esteja rastreado? Além disso, uma aranha sequer engana uma página gerada dinamicamente e qualquer ação impedia que certos diretórios fossem pesquisadores da pesquisa do meu ranking de mecanismos de pesquisa?

Edit: devo acrescentar, estou lendo robots.txt Protocolo, mas depende da cooperação do rastreador da web. No entanto, eu também gostaria de impedir quaisquer usuários de mineração de dados que ignorem o arquivo robots.txt.

Agradeço qualquer ajuda!

Foi útil?

Solução

Você pode impedir que alguns clientes maliciosos atinjam muito o servidor, implementando a limitação no servidor. "Desculpe, seu IP fez muitos pedidos para este servidor nos últimos minutos. Tente novamente mais tarde." Na prática, porém, suponha que você não possa impedir um usuário verdadeiramente malicioso de ignorar quaisquer mecanismos de estrangulamento que você implementou.

Dado isso, aqui está a pergunta mais importante:

Você se sente confortável com as informações que está disponibilizando para todo o mundo ver? São seus usuários confortável com isso?

Se a resposta para essas perguntas for não, você deve garantir que apenas usuários autorizados possam ver as informações confidenciais. Se a informação não for particularmente sensível, mas você não deseja que os clientes a rastejem, o estrangulamento provavelmente é uma boa alternativa. É mesmo provável que você seja rastejado de qualquer maneira? Caso contrário, o robots.txt deve estar bem.

Outras dicas

Parece que você tem 2 problemas.

Em primeiro lugar, uma preocupação com certos dados que aparecem nos resultados da pesquisa. O segundo sobre dados maliciosos ou sem escrúpulos de colheita de usuários relacionados ao usuário.

A primeira edição será coberta pelo uso apropriado de um arquivo robots.txt, pois todos os grandes mecanismos de pesquisa honram isso.

A segunda questão parece mais a ver com a privacidade dos dados. A primeira pergunta que imediatamente se lembra é: se há informações do usuário que as pessoas não desejam exibidas, por que você está disponibilizando?
Qual é a política de privacidade para esses dados?
Os usuários têm a capacidade de controlar quais informações são disponibilizadas?
Se a informação for potencialmente sensível, mas importante para o sistema, poderá ser restrita, por isso está disponível apenas para os usuários registrados?

Confira o Padrão de exclusão de robôs. É um arquivo de texto que você coloca no seu site que informa a um bot o que pode e não pode indexar. Você também deseja abordar o que acontece se um bot não honrar o arquivo robots.txt.

arquivo robots.txt, conforme mencionado. Se isso não for suficiente, você pode:

  • Bloquear os usuários desconhecidos - difícil de manter, fácil para um bot forjar um navegador (embora a maioria dos bots legítimos não seja
  • Bloquear endereços IP desconhecidos - não úteis para um site público
  • Requer logins
  • Conexões do usuário do acelerador - complicado de sintonizar, você ainda estará divulgando informações.

Talvez usando uma combinação. De qualquer maneira, é uma troca, se o público pode navegar para ele, assim como um bot. Certifique -se de não bloquear e alienar as pessoas em suas tentativas de bloquear os bots.

Algumas opções:

  • forçar o usuário a fazer login para visualizar o conteúdo
  • Adicione uma página do captcha antes do conteúdo
  • Incorporar conteúdo no flash
  • Carregue dinamicamente com JavaScript
Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top