スクレイパー /悪いボットを検出するためのハニーポットIMGタグの使用に関するアドバイス

StackOverflow https://stackoverflow.com/questions/7340105

質問

scrapers / badボットを検出するために、HTMLボディに少しハニーポット画像をセットアップしたいと思います。

誰かが以前にこのようなものを設定したことがありますか?

私たちはそれに行くための最良の方法は次のことだと思っていました:

a)htmlをコメントしてください:

<!-- <img src="http://www.domain.com/honeypot.gif"/> -->

b)経由でブラウザから隠される画像にCSSスタイルを適用します。

.... id="honeypot" ....

#honeypot{
    display:none;
    visibility:hidden;
}

上記を使用して、適切で実際のユーザーエージェントが画像 /レンダリングを試みる状況を予見しますか?

honeypot.gifは、ロギングを行うmod_rewritted phpスクリプトになります。

上記の2つの条件は、よくコード化されたスクレーパーによってスキップされる可能性があることを理解していますが、少なくとも非常に汚いものに関する洞察を捨てるでしょう。

これに行くための最良の方法に関する他のポインターはありますか?

役に立ちましたか?

解決

ボットは、コメント内にあるため、IMGタグを無視します。

代わりに、同じサイト上のトリガーURLへのリンクを含む目に見えないDIVを作成することを検討する場合があります(できれば、ボットが深さに敏感である場合に備えて、同じディレクトリ内)。

他のヒント

IMO私はどんな良いスクレーパーも、 SGML parser, 、そしてコメントされた画像をスキップするだけですが、私は間違っている可能性があります。

せいぜい、それが起こったときにアイデアを与えますが、スクレーパーでカウンターする方法は提供されません。ほとんどのボットはおそらくこれらを気にしないので、おそらく何らかのCookieベースのソリューションを考え出す方が良いでしょう。また、要求の間の画像パスをランダム化し、短期間で有効期限を切ることもできます。

リファラーをチェックすることは、それらをサポートしていないブラウザやそれらを隠す/変更する人々を気にしない場合、明らかなものです。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top