Zulassen von Google in der Bypass-CAPTCHA Überprüfung - sinnvoll oder nicht?

https://stackoverflow.com/questions/2621533

26-09-2019
|

Frage

Meine Website verfügt über eine Datenbank-Lookup; aus einem CAPTCHA Füllung gibt Ihnen 5 Minuten von Lookup-Zeit. Es gibt auch einige benutzerdefinierte Code keine automatisierte Skripte zu erkennen. Ich tue dies, weil ich jemanden Datamining meiner Seite nicht will.

Das Problem ist, dass Google nicht die Lookup-Ergebnisse nicht sehen, wenn es um meine Seite kriecht. Wenn jemand für eine Zeichenfolge zu suchen, die im Ergebnis einer Lookup vorhanden ist, würde ich sie gerne diese Seite finden, indem es googeln.

Die offensichtliche Lösung für mich ist die PHP-Variable $_SERVER['HTTP_USER_AGENT'] zur Umgehung des CAPTCHA und benutzerdefinierte Sicherheitscode für die Google-Bots zu verwenden. Meine Frage ist, ob dies sinnvoll ist oder nicht.

Die Menschen könnten dann Google-Cache verwenden, um die Lookup-Ergebnisse anzuzeigen, ohne die CAPTCHA ausfüllen, würden aber Google-eigene Skriptnachweisverfahren verhindern, dass sie Daten, die diese Seiten Bergbau?

Oder gäbe es eine Möglichkeit für Menschen $_SERVER['HTTP_USER_AGENT'] erscheinen als Google zu umgehen die Sicherheitsmaßnahmen zu machen?

Vielen Dank im Voraus.

Lösung

Oder gäbe es eine Möglichkeit für Menschen $ _SERVER zu machen [ ‚HTTP_USER_AGENT‘] erscheinen als Google zu umgehen die Sicherheitsmaßnahmen?

Auf jeden Fall. Der User-Agent ist laughably leicht zu fälschen. Siehe z.B. User Agent Switcher für Firefox . Es ist auch einfach für ein Spam-Bot seine User-Agent-Header an den Google-Bot zu setzen.

Es könnte noch wert sein einen Schuss, though. Ich würde sagen, nur probieren Sie es aus und sehen, was die Ergebnisse sind. Wenn Sie Probleme bekommen, müssen Sie über eine andere Art und Weise denken.

Eine weitere Möglichkeit, das Google-Bot zu erkennen könnte werden, um den IP-Bereich (e) es verwendet. Ich weiß nicht, ob die Bot-Anwendungen definiert IP-Bereiche -. Es könnte sein, dass das nicht der Fall, würden Sie herausfinden müssen,

Update: scheint es möglich zu sein, die Google Bot zu überprüfen, indem die IP-Analyse. Aus Google Webmaster-Zentrale: Wie Googlebot <, um zu überprüfen / p>

Telling Webmaster Verwendung von DNS auf einer Fall-zu-Fall-Basis zu überprüfen, scheint der beste Weg zu gehen. Ich denke, die empfohlene Technik ein Reverse-DNS-Lookup zu tun wäre, stellen Sie sicher, dass der Name in der googlebot.com Domäne ist, und dann eine entsprechende Vorwärts-DNS-> IP-Lookup über die googlebot.com Namen; zB:

Host 66.249.66.1   1.66.249.66.in-addr.arpa Domain-Name Zeiger crawl-66-249-66-1.googlebot.com.

Host crawl-66-249-66-1.googlebot.com   crawl-66-249-66-1.googlebot.com hat Adresse 66.249.66.1

Ich glaube nicht, nur ein Reverse-DNS-Lookup ist ausreichend, da ein spoofer reverse DNS zu Punkt auf crawl-a-b-c-d.googlebot.com einstellen könnte.

Andere Tipps

die $_SERVER['HTTP_USER_AGENT'] Parameter sind nicht sicher, gefälscht Leute können es, wenn sie wirklich Ihre Ergebnisse wollen bekommen. Ihre Entscheidung ist ein Geschäft ein, im Grunde möchten Sie Sicherheit senken und möglicherweise zulassen, dass Menschen / Bots Ihrer Website kratzen, oder möchten Sie Ihre Ergebnisse versteckt von Google.

Eine Lösung ist sicher, haben eine kleine Geo-Datenbank von ASN sortiert, blockieren die schlechte ASN Bot (Proxy, Server, Hosting-Provider wie OVH) und erlauben einen kleinen Bot (Google, Bing, Yahoo), GSM-Mobil ASN wie Orange , SFR Vodafone ... Nur eine Idee:)

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow