Frage

Ich möchte automatisch erkennen Google und anderen Crawlers und melden sie in meine ASP.NET-Website. Hat jemand gefunden, eine zuverlässige Art und Weise, dies zu tun? Der Login-Teil ist einfach, aber zuverlässig zu erfassen, sie ist das eigentliche Problem.

Viele Grüße.

War es hilfreich?

Lösung

Sehen Sie in der User-Agent. Es sollte Googlebot sein. Eine zuverlässigere Art und Weise ist ein Reverse-Lookup der IP adddress zu tun. Es wird Ihnen sagen, ob es ein Google-Bot ist oder nicht. Ich würde beiden Methoden verwenden. ABER. Hinweis: Sie werden Ihre Website verlangsamen, da Sie einen Reverse-Lookup für jeden Besucher tun werden

http://www.google.com /support/webmasters/bin/answer.py?hl=en&answer=80553

Andere Tipps

Dies scheint eine wirklich schlechte Idee aus mehreren Gründen, nicht zuletzt von denen ist, dass Google Kopien Ihrer Seiten zwischengespeichert werden, so dass selbst wenn ich gegen Ihre Website nicht authentifizieren, ich in der Lage sein, den Inhalt zu sehen Webseiten und andere Dokumente dienten hinter dem geschützten Teil Ihrer Website.

Was Web-Crawler Erkennung geht, würde ich keine User Agent vertrauen. Sie könnten wahrscheinlich eine Liste zusammenstellen von IP die Raupen stammen aus, aber sobald Google fügt eine weitere IP-Adresse adressiert, werden Sie, dass die Crawler Zugriff verweigert.

Doing ein Reverse-DNS-Lookup auf jede Anforderung die Domäne des Besuchers, um sicherzustellen, googlebot.com wie unter Überprüfen des Googlebot eine große Leistung getroffen werden könnte, wenn Ihre Website beschäftigt ist.

Sie brauchen nicht ein Reverse-Lookup auf jede Anfrage zu tun. Cache, um die Ergebnisse des Reverse-Lookup. Ich ging gerade durch meine Protokolle, und ich sehe, lange Läufe von Googlebot von der gleichen IP kommen. Dieses Verhalten ist nicht garantiert, aber auf jeden Fall Caching sollte eine gute Strategie sein.

Sie können ganz einfach Google indizieren direkt, aber nicht Ihre Site-Seiten mit dem noarchive Metatag zwischenzuspeichern. Auf diese Weise können die Vorteile gewinnen, ohne die Offenlegung Ihrer Inhalte durchsuchbar sein.

Sehen Sie diese Seite bei Google Webmaster-Zentrale für weitere Informationen

http://www.google.com /support/webmasters/bin/answer.py?hl=en&answer=156412

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top