Frage

Ich mache ein sehr rudimentäres Tracking der Seitenaufrufe, indem Sie URL, Einladungscodes, Sitzungen, Zeiten usw., aber es wird immer bombardiert mit Roboter (Google, Yahoo usw.) zu finden. Ich frage mich, was ein effektiver Weg ist, diese Statistiken zu auszufiltern oder nicht einloggen?

Ich habe mit Roboter IP-Listen experimentiert usw., aber dies ist nicht narrensicher.

Gibt es irgendeine Art von robots.txt, htaccess, PHP serverseitigen Code, JavaScript oder eine andere Methode (n), kann "Trick" Roboter oder nicht-menschliche Interaktion ignorieren?

War es hilfreich?

Lösung

Just hinzuzufügen - eine Technik, die Sie in Ihrer Schnittstelle verwenden können, wäre Javascript zu verwenden, um die Aktionen zu verkapseln, die für bestimmte Benutzer-Interaktion Ansicht / Zählerinkrementierungen führen, für ein sehr rudimentäres Beispiel wird ein Roboter (kann) nicht folgen :

<a href="javascript:viewItem(4)">Chicken Farms</a>

function viewItem(id)
{
    window.location.href = 'www.example.com/items?id=' + id + '&from=userclick';
}

Um diese Klicks leichter zu verfolgen, könnten sie eine Anfrage wie

Ausbeute
www.example.com/items?id=4&from=userclick

Das würde helfen Ihnen zuverlässig verfolgen, wie oft etwas ‚angeklickt‘ wird, aber es offensichtliche Nachteile hat, und natürlich hängt es davon ab, was Sie erreichen wollen.

Andere Tipps

Es hängt davon ab, was Sie, was zu erreichen. Wenn Sie Bots wollen die Suche zu stoppen Besuch bestimmter Pfade / Seiten können Sie sie in robots.txt enthalten. Die Mehrheit der gut benimmt Bots werden sie aufhören zu schlagen.

Wenn Sie Bots Index diese Pfade wollen, aber Sie wollen nicht, sie in Ihren Berichten sehen, dann müssen Sie einige Filterlogik implementieren. Z.B. Alle wichtigen Bots haben einen sehr klaren User-Agenten-String (beispiel Googlebot / 2.1). Sie können diese Zeichenfolge verwenden, um diese Hits aus Ihrem Bericht herauszufiltern.

Nun, die Roboter werden alle verwenden, um einen bestimmten User-Agent, so können Sie nur diese Anforderungen außer Acht lassen.

Aber auch, wenn Sie nur eine robots.txt verwenden und leugnen sie von einem Besuch; auch das wird auch funktionieren.

Setzen Sie das weel nicht redescover!

Jedes statistisches Werkzeug zur Zeit filtert Roboter Anfrage. Sie können AWSTATS (Open Source) installieren, auch wenn Sie ein Shared-Hosting haben. Wenn Sie nicht eine Software auf Ihrem Server installieren können Sie Google Analytics am Ende Ihrer Seiten nur ein Skript Hinzufügen verwenden. Beide Lösungen sind sehr gut. Auf diese Weise müssen Sie nur Ihre Fehler protokollieren (500, 404 und 403 sind genug).

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top