Possível para evitar o mecanismo de busca do infinitamente rastejando links de paginação nos resultados de pesquisa?

https://stackoverflow.com/questions/344721

19-08-2019
|

Pergunta

equipe

Nossa SEO gostaria de abrir a nossa página de resultados de busca dinâmica principal para aranhas e remover o 'nofollow' dos metatags. É actualmente acessível às aranhas via permitindo que o caminho no robots.txt, mas com uma cláusula de 'nofollow' na meta tag que impede aranhas de ir além da primeira página.

<meta name="robots" content="index,nofollow">

Estou preocupado que, se remover o 'nofollow', o impacto para o nosso sistema de busca serão catastróficas, como aranhas irá iniciar o rastreamento através de todas as páginas no conjunto de resultados. Gostaria muito de receber conselhos sobre: ??

1) Existe uma maneira de remover o 'nofollow' do tag meta, mas evitar aranhas de seguir apenas alguns links na página? Eu li opiniões mistos sobre rel = "nofollow", esta é uma opção viável?

<a rel="nofollow" href="http://www.mysite.com/paginglink" >Next Page</a>

2) Existe uma maneira de controlar a 'profundidade' de quão longe as aranhas irá? Não seria tão ruim se eles bateram algumas páginas, depois parou.

3) As nossas páginas de resultados de busca têm os links anterior / seguinte padrão, o que, em teoria, causar aranhas para páginas de sucesso de forma recursiva ao infinito, qual é o efeito disso sobre SEO?

Eu entendo que aranhas diferentes se comportam de forma diferente, mas estou preocupado principalmente com os grandes jogadores, como o Google, Yahoo, MSN.

Nota A nossa busca páginas de resultados e links de paginação não são amigáveis-bot, em que eles não são re-escrito e ter um? Name = string de consulta valor, mas a partir de aranhas que eu já vi já não é apenas abortar quando vêem o '? como os resultados páginas estão ficando indexado com page rank decente.

Foi útil?

Solução

Para ser honesto você está olhando para nofollow errado. As chances são as aranhas de busca já são especialmente Google, Yahoo, MSN e pesquisar as páginas nofollow, porque eles ainda têm de acertar essas páginas para ver se eles têm um noindex.

O problema real é nofollow não realmente média não seguem , isso significa apenas não passar minha reputação a este link . Assim a menos que você está bloqueando de forma agressiva bots, que não soar como você está, mudando os robôs comandos tag e robô meta em links não vai desempenho efeito, porque eles já estão batendo seu site. Para confirmar este olhar apenas à sua HTTP Server Log.

Então, o meu voto é que você não vai ver qualquer problema com a remoção dos limites do robô.

Outras dicas

Eu vi Google indexar um sistema de calendário que tinha links relativos em cada página até o final do tempo (19 de janeiro de 2038 - veja: http://en.wikipedia.org/wiki/Year_2038_problem ). Não notamos a carga em nossos servidores até que ele expôs um bug no tráfico de código-fonte com datas em 2038.

Eu não sei sobre os outros motores de busca, mas o Google oferece uma série de ferramentas úteis para controlar o quanto os impactos Googlebot sua infra-estrutura de servidor. Consulte http://www.google.com/webmasters/ .

Há uma opção em ferramentas para webmasters para definir a taxa de rastreamento para o seu site.

Google bots são bastante inteligente sobre não atravessar um banco de dados inteiro de páginas geradas dinamicamente, enquanto os URLs dar alguma dica de que eles são dinâmicos (ou seja, extensão de arquivo ASP ou JSP, etc. e ids numéricos como consulta parâmetros). Se você usar regras de reescrita para fazer suas URLs "amigável", em seguida, os bots têm mais dificuldade em determinar se é ou não é uma página estática que estão lendo ou uma página gerada dinamicamente. Consulte este artigo Google para mais informações sobre URLs dinâmico vs. estáticos.

Você também pode querer considerar a criação de um Google Sitemap para dar os bots uma idéia melhor sobre o que as páginas do seu site pode ser indexado e que não pode.

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow