Frage

Ich habe auf meine Verfolger wurde bemerkt, dass Bots meine Seite ALOT besuchen. Soll ich meine robots.txt verändern oder bearbeiten oder etwas ändern? Nicht sicher, ob das ist gut, weil sie indizieren, oder was?

War es hilfreich?

Lösung

  

Soll ich meine robots.txt verändern oder bearbeiten oder etwas ändern?

Abhängig von der Bot. Einige Bots dutifully robots.txt ignorieren. Wir hatten ein ähnliches Problem vor 18 Monaten mit dem Google AD bietet, weil unsere Kunden Soooo viele Anzeigen wurden entschieden haben. Google AD Bots (wie dokumentiert) ignoriert Platzhalter (*) Ausschlüsse, sondern explizit ignoriert hören.

Denken Sie daran, Bots, die robots.txt ehren wird nicht nur Ihre Website crawlen. Dies ist unerwünscht, wenn Sie wollen, für die Indizierung Zugriff auf Ihre Daten erhalten.

Eine bessere Lösung ist statischen Inhalt an die Bots zu drosseln oder zu liefern.

  

Nicht sicher, ob das ist gut, weil sie indizieren, oder was?

Sie können Indizierung / Schaben / Stehlen sein. Alle gleich wirklich. Was ich denke, Sie wollen, ist ihre HTTP-Request-Verarbeitung basierend auf Useragents zu drosseln. Wie dies auf Ihrem Webserver und App-Container ab.

Wie in anderen Antworten vorgeschlagen, wenn der Bot bösartig ist, dann werden Sie brauchen entweder die Useragent-Muster zu finden und 403 forbiddens senden. Oder, wenn die bösartigen Bots dynamisch User-Agent-Strings ändern haben Sie eine zwei weitere Möglichkeiten:

  • White-Liste Useragents - z.B. einen Benutzeragenten Filter erstellen, die Agenten bestimmte Benutzer akzeptiert nur. Dies ist sehr unvollkommen.
  • IP-Verbot - die HTTP-Header den Quell-IP enthalten. Oder, wenn Sie DOS'd (Denial-of-Service-Attacke) bekommen, dann haben Sie größere Probleme

Andere Tipps

ich Ändern glaube wirklich nicht, die robots.txt helfen wird, denn nur gut Bots daran halten. Alle anderen ignorieren und analysieren Ihre Inhalte, wie sie wollen. Ich persönlich verwende http://www.codeplex.com/urlrewriter erhalten der unerwünschten Roboter befreien, indem reagiert mit einer verbotenen Nachricht, wenn sie gefunden werden.

Die Spam-Bots kümmern sich nicht um robots.txt. Sie können sie mit etwas blockieren wie mod_security (das ist eine ziemlich cool Apache-Plugin in seinem eigenen Recht). Oder Sie könnten einfach ignorieren.

Sie müssen möglicherweise verwenden .htaccess einige Bots zu verweigern, mit Ihren Protokollen verschrauben. Siehe hier: http://spamhuntress.com/2006/02/ 13 / andere hungrige-java-bietet /

Ich hatte viele Java-Bots meine Website kriechen, das Hinzufügen

SetEnvIfNoCase User-Agent ^ Java / 1. javabot = yes
SetEnvIfNoCase User-Agent ^ Java1. javabot = yes
Verweigern von env = javabot

machte sie stoppen. Jetzt bekommen sie nur 403 einmal und das ist es:)

Ich habe einmal für einen Kunden, der eine Reihe von „Preisvergleich“ Bots hatte die Website die ganze Zeit zu treffen. Das Problem war, dass unsere Backend-Ressourcen waren knapp und Geld kosten pro Transaktion.

Nach dem Versuch, einige von ihnen für einige Zeit zu bekämpfen, aber die Bots hielten gerade ihre erkennbaren Eigenschaften zu verändern. Am Ende hat wir mit folgenden Strategie:

Für jede Sitzung auf dem Server wir festgestellt, ob der Benutzer an jedem beliebigen Punkt Klick zu schnell war. Nach einer bestimmten Anzahl von Wiederholungen, würden wir das „isRobot“ Flag auf true gesetzt und einfach die Reaktionsgeschwindigkeit durch Zugabe schläft in dieser Sitzung drosseln. Wir haben nicht gesagt, den Benutzer in keiner Weise, da er nur eine neue Sitzung in diesem Fall starten würde.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top