の検出にも威/知られてボット

https://stackoverflow.com/questions/960821

12-09-2019
|

質問

この質問は非常に興味深い: プボット検出いても問題ありません気に'ひどくしょボット'.

私は御のほか、googleアナリティクス)のぢゅうグループが協賛:

入力URL
Referer
UserAgent
日本国内に拠点を置く、多言語によるクエリ文字列)
かどうかは、ユーザーが作った購入
など。

問題はその算定にどのような変換率私はまた、多くのボット'訪問してその比率をゆった。

いは無視できるだけ多くのボットの訪問かもしれないけど、私は解らない必要がある、としないことはそれ自体の性能を独り占めとが好ましいものばはjavascriptを無効になります。

が良版リストのトップ100ボットです見つかのリスト http://www.user-agents.org/ それを含む何百人もいない場合に数千人のボット.ならないようにしたいチェックreferer対数千のリンクです。

ここでは、現在のgooglebot UserAgent.どのくらいの頻です。

 Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

解決 2

ことを実感し、それを実際に容易に正確な面かったので試す

すなわち

select count(*) as count, useragent from sessionvisit 
where useragent not like '%firefox%' 
and useragent not like '%chrome%'
and useragent not like '%safari%'
and useragent not like '%msie%'
and useragent not like '%gecko%'
and useragent not like '%opera%'
group by useragent order by count desc

僕が実際にしようとするのは正確に変換率もうあまり などの良いブラウザ よ 除ボット (良).

またすべ'セッション'a'のロボットはお買いもあるということは、新しいブラウザ（クローム).現在の私のロボットにて購入！

他のヒント

あなたはrobotstxt.org のオフロボットデータベースをインポートしてフィルタリングすることを使用して試みることができますこれらのユーザーエージェントからの要求。 User-agents.orgに異なる多くのことが、少なくともrobotstxt.orgリストは、「所有者に提出」（おそらく）でない場合があります。

私はすぐに彼らのダウンロード可能なバージョンが表示されていないが、

そのサイトも botsvsbrowsers.comするにリンクデータます。

また、あなたは

言いました

私はリンクの数千人に対してすべてのリファラをチェックする必要はありません。

これは十分に公平である - しかし、実行時のパフォーマンスが懸念される場合には、ちょうどすべての要求を「ログ」と後処理（夜間バッチ、またはレポート・クエリの一部として）としてそれらを除外する。

この点も、私は少し混乱

好ましくは、誰かがJavaScriptを無効にしている場合に動作します。

あなたが仕えるすべてのページの一部として、サーバ側でログを書いていますか？（明らかにそれらのJavaScriptが無効になっているが、Googleアナリティクスで報告取得することはできませんが）はJavaScriptがこの場合の違いを作るべきではありません。

p.s。 robotstxt.orgに言及した、それはあなたのウェブサイトのルートから/robots.txtを要求しますその行儀のロボットを覚えておく価値です。おそらく、あなたはあなたの利点にその知識を使用することができます - あなたは除外する可能性のあるロボットのユーザーエージェントをユーザーに通知する/ログインすることで、（私はは自動的にの通常のWebユーザーの場合にはそのUAを除外しないだろうがタイプは）現実の人々を無視するようにコードを引き起こす可能性があるブラウザの中に/robots.txt。私はそれがあまりにも多くのメンテナンスのオーバーヘッドを引き起こすとは思わない時間をかけて...

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow