谷歌收录我的测试文件夹在我的网站:(如何限制网络爬虫!
-
13-09-2019 - |
题
帮助帮助!谷歌收录在我的网站的测试文件夹,没有人保存我本来是要了解:(!如何限制从谷歌索引链接和某些文件夹。
解决方案
使用机器人排除文件,或者更好的密码保护测试领域!使用robots.txt文件,以“保护”你不希望别人看到的区域是有点像挂在你的后门一个牌子,上面写着的“我已经离开这个开放,但请不要进来” 的:)
如果您谷歌网站管理员工具注册,你可以请求删除的如果你确保它不再通过访问他们的爬虫的搜索结果。
其他提示
使用robots.txt
。
谷歌它,或检查出: HTTP ://www.google.com/support/webmasters/bin/answer.py HL = EN&回答= 40360
要避免爬虫索引的最佳方式您的部分内容是由您的网站的根目录下的robots.txt文件。
下面是一个例子:
User-agent: *
Allow: /
Crawl-delay: 5
User-agent: *
Disallow: /cgi-bin
Disallow: /css
Disallow: /img
Disallow: /js
在第一个块,我告诉他履带可以浏览所有。
在第二块具有文件夹的列表我希望他避免。
这是不是一种安全的方式真正保护它,因为有些爬虫不尊重它。
如果你真的想保护它,最好的办法应该是对这些文件夹.htaccess文件强制认证。
小心!你可以说“好”的机器人(如谷歌)远离某些地方了,但其他的机器人不玩那该多好。因此,妥善解决这个问题的唯一办法就是一些限制添加到不属于“公共”的场所。你可以限制访问您信任某些IP地址,或者你可以添加用户名/密码认证。
也许正确的答案是:不把测试代码在公共网站。为什么部署在所有的组成部分?
如果你使用Apache:
的.htaccess
AuthUserFile //.htpasswd
AuthGroupFile /dev/null
AuthName "You must log in to access this development web site"
AuthType Basic
<Limit GET>
require valid-user
</Limit>
密码文件(htpasswd的),那么包含
name:password
的密码进行加密。如果你搜索“htpasswd的”你会发现很多的免费节目,为你加密密码。
TRIG。