如何在 Apache 下阻止 mp3 爬虫访问我的网站?
题
是否有某种方法可以使用 .htaccess 文件或类似文件阻止引用者的访问?我的带宽被来自以下网站的人占用了 http://www.dizzler.com 这是一个基于 Flash 的网站,允许您浏览已爬网的公开可用 mp3 库。
编辑: Dizzler 仍在进入(可能在所有情况下都没有指示引用者),因此我将所有 mp3 移动到一个新文件夹,禁用目录浏览,并创建一个 robots.txt 文件以(希望)防止它再次被索引。已接受的答案已更改,以反映我之前的尝试是徒劳的:P
解决方案
这就像说您想要阻止垃圾邮件机器人在您的公开可见页面上收集电子邮件 - 如果不强迫您的查看者登录以确认其身份,就很难区分用户和机器人之间的区别。
您可以使用 robots.txt 来禁止实际遵循这些规则的蜘蛛程序,但这是他们的立场,而不是您的服务器的立场。有一个页面解释了如何抓住那些违反规则的人并明确禁止他们: 使用 Apache 阻止坏机器人 [evolt.org]
如果您想要一种简单的方法来停止 dizzler,特别是使用 .htaccess,您应该能够将其打开并添加:
<Directory /directoryName/subDirectory>
Order Allow,Deny
Allow from all
Deny from 66.232.150.219
</Directory>
其他提示
从 这个网站:(将其放入您的 .htaccess 文件中)
RewriteEngine on
RewriteCond %{HTTP_REFERER} ^http://((www\.)?dizzler\.com [NC]
RewriteRule .* - [F]
你可以使用类似的东西
SetEnvIfNoCase Referer dizzler.com spammer=yes
Order allow,deny
allow from all
deny from env=spammer
来源: http://codex.wordpress.org/Combating_Comment_Spam/Denying_Access
这不是一个非常优雅的解决方案,但您可以阻止网站的爬虫机器人,然后重命名您的 mp3 文件以破坏网站上已有的链接。
不隶属于 StackOverflow