Come tenere traccia di tutti i dati web robot attività del sito web e filtraggio

https://stackoverflow.com/questions/1285749

18-09-2019
|

Domanda

Sto facendo un monitoraggio molto rudimentale di pagine viste da url accedendo, i codici di riferimento, le sessioni, volte ecc, ma trovando la cosa si fa bombardato con i robot (Google, Yahoo, ecc). Mi chiedo che cosa è un modo efficace per filtrare o meno registrare queste statistiche?

Ho sperimentato liste robot IP, ecc, ma questo non è infallibile.

C'è una sorta di robots.txt, .htaccess, codice lato server PHP, JavaScript o altro metodo (s) che può robot "trucco" o ignorare l'interazione non umano?

Soluzione

Giusto per aggiungere - una tecnica che può impiegare entro l'interfaccia potrebbe essere quella di utilizzare Javascript per incapsulare le azioni che portano a determinati incrementi di vista utente-interazione / contatore, per un esempio molto rudimentale, un robot (possono) non seguire :

<a href="javascript:viewItem(4)">Chicken Farms</a>

function viewItem(id)
{
    window.location.href = 'www.example.com/items?id=' + id + '&from=userclick';
}

Per rendere tali clic più facile tenere traccia, potrebbero produrre una richiesta come

www.example.com/items?id=4&from=userclick

che vi aiutano a tenere traccia in modo affidabile quante volte qualcosa è 'scattato', ma ha ovvie, e, naturalmente, in realtà dipende da ciò che si sta cercando di raggiungere.

Altri suggerimenti

Dipende da quello che cosa realizzare. Se si desidera motori di ricerca di smettere di visitare determinati percorsi / pagine è possibile includerli nel file robots.txt. La maggior parte dei bot ben comportarsi si fermerà li colpisce.

Se si desidera bot per indicizzare questi percorsi, ma non si vuole vederli nei rapporti allora avete bisogno di implementare una logica di filtraggio. Per esempio. tutte le principali bot hanno una stringa agente utente molto chiara (ad esempio Googlebot / 2.1). È possibile utilizzare queste stringhe per filtrare questi colpi fuori dal vostro rapporto.

Bene i robot saranno tutti utilizzare un utente-agente specifico, in modo da poter semplicemente ignorare tali richieste.

Ma anche, se si utilizza un file robots.txt e negate da visitare; bene che funzionerà anche.

Non redescover la cava alla grande!

Qualsiasi strumento statistico momentaneamente filtra richiesta robot. È possibile installare Awstats (open source), anche se si dispone di un hosting condiviso. Se non si installare un software sul server è possibile utilizzare Google Analytics aggiungendo solo uno script alla fine delle vostre pagine. Entrambe le soluzioni sono molto buone. In questo modo è sufficiente registrare i tuoi errori (500, 404 e 403 sono abbastanza).

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow