Pergunta

Eu estou fazendo um rastreamento muito rudimentar de page views por url logging, códigos de referência, sessões, etc vezes mas encontrá-lo está sendo bombardeados com robôs (Google, Yahoo etc). Eu estou querendo saber o que é uma maneira eficaz é para filtrar ou não log essas estatísticas?

Eu experimentei com listas IP robô etc, mas isso não é infalível.

Existe algum tipo de robots.txt, htaccess, o código do lado do servidor PHP, javascript ou outro método (s) que podem robots "truque" ou ignore interação não-humano?

Foi útil?

Solução

Só para acrescentar - uma técnica que você pode empregar dentro de sua interface seria usar Javascript para encapsular as ações que levam a determinados incrementos de vista a interação do usuário / balcão, para um exemplo muito rudimentar, um robô (CAN) não seguem :

<a href="javascript:viewItem(4)">Chicken Farms</a>

function viewItem(id)
{
    window.location.href = 'www.example.com/items?id=' + id + '&from=userclick';
}

Para fazer os cliques mais fácil de controlar, eles podem produzir um pedido como

www.example.com/items?id=4&from=userclick

Isso ajudaria a rastrear de maneira confiável quantas vezes algo é 'clicado', mas tem desvantagens óbvias, e é claro que realmente depende do que você está tentando alcançar.

Outras dicas

Depende do que você o que conseguir. Se você quiser bots procurar para parar de visitar certos caminhos / páginas que você pode incluí-los em robots.txt. A maioria dos bots bem-comportando vai parar de bater-los.

Se você quiser bots para indexar esses caminhos, mas você não quiser vê-los em seus relatórios, então você precisa para implementar alguma lógica de filtragem. Por exemplo. todas as principais bots tem uma cadeia de agente de usuário muito claro (por exemplo Googlebot / 2,1). Você pode usar essas cordas para filtrar esses hits fora de seu relatório.

Bem, os robôs serão todos usar um usuário-agente específico, assim você pode simplesmente ignorar esses pedidos.

Mas também, se você usar apenas um robots.txt e negar-lhes de visitar; assim que vai funcionar também.

Do not redescover o weel!

Qualquer ferramenta estatística no momento filtra robôs solicitar. Você pode instalar AWStats (open source), mesmo se você tiver uma hospedagem compartilhada. Se você não vai instalar um software em seu servidor, você pode usar o Google Analytics adicionando apenas um script no final de suas páginas. Ambas as soluções são muito bons. Desta forma, você só tem que registrar seus erros (500, 404 e 403 são suficientes).

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top