这会不会仅robots.txt的允许Googlebot索引我的网站?
-
25-09-2019 - |
题
请问这个robots.txt文件只允许Googlebot索引我的网站的index.php文件?警告,我有一个htaccess重定向的人谁键入
http://www.example.com/index.php
被重定向到简单地
http://www.example.com/
所以,这是我的robots.txt文件的内容...
User-agent: Googlebot
Allow: /index.php
Disallow: /
User-agent: *
Disallow: /
提前感谢!
解决方案
不是真的。
好机器人结果
只有“好”机器人按照robots.txt
说明(不是所有的机器人和蜘蛛懒得读/后续robots.txt
)。这可能还不包括所有主要的搜索引擎的机器人,但它肯定意味着一些网络爬虫只会完全忽略你的请求(你应该看看使用的.htaccess或密码保护,如果你真的想看见的部分停止机器人/爬虫您的网站)。
其次检查结果
谷歌让您的网站多次访问,包括出现的浏览用户。这第二次访问将忽略robots.txt
文件。第二次访问可能实际上并不指数(如果那是你的担心),但它确实检查,以确保你不会试图愚弄索引机器人(搜索引擎优化等)。
这就是说你的语法是正确的......如果这一切你问,那么是的,它会工作,只是没有得到很好的,你可能会希望。
其他提示
缺席重定向,Googlebot的不会看到你的网站,除了index.php文件。
通过重定向,这取决于你的htaccess如何机器人处理重定向,以及如何做重定向。如果返回一个302,那么Googlebot会看到http://www.example.com/
,对证的robots.txt,并没有看到主站点。即使你做了一个内部重定向,并告诉Googlebot响应页面http://www.example.com/
,它会看到的页面,但可能没有指标了。
这是危险的。可以肯定,谷歌不会索引你的网页做出这样的:
User-agent: *
Allow: /index.php
Disallow: /a
Disallow: /b
...
Disallow: /z
Disallow: /0
...
Disallow: /9
所以,你的根 “/” 不匹配不允许规则。
此外,如果您的AdSense不要忘记添加
User-agent: Mediapartners-Google
Allow: /