请问这个robots.txt文件只允许Googlebot索引我的网站的index.php文件?警告,我有一个htaccess重定向的人谁键入

http://www.example.com/index.php

被重定向到简单地

http://www.example.com/

所以,这是我的robots.txt文件的内容...

User-agent: Googlebot
Allow: /index.php
Disallow: /

User-agent: *
Disallow: /

提前感谢!

有帮助吗?

解决方案

不是真的。

好机器人结果 只有“好”机器人按照robots.txt说明(不是所有的机器人和蜘蛛懒得读/后续robots.txt)。这可能还不包括所有主要的搜索引擎的机器人,但它肯定意味着一些网络爬虫只会完全忽略你的请求(你应该看看使用的.htaccess或密码保护,如果你真的想看见的部分停止机器人/爬虫您的网站)。

其次检查结果 谷歌让您的网站多次访问,包括出现的浏览用户。这第二次访问将忽略robots.txt文件。第二次访问可能实际上并不指数(如果那是你的担心),但它确实检查,以确保你不会试图愚弄索引机器人(搜索引擎优化等)。

这就是说你的语法是正确的......如果这一切你问,那么是的,它会工作,只是没有得到很好的,你可能会希望。

其他提示

缺席重定向,Googlebot的不会看到你的网站,除了index.php文件。

通过重定向,这取决于你的htaccess如何机器人处理重定向,以及如何做重定向。如果返回一个302,那么Googlebot会看到http://www.example.com/,对证的robots.txt,并没有看到主站点。即使你做了一个内部重定向,并告诉Googlebot响应页面http://www.example.com/,它会看到的页面,但可能没有指标了。

这是危险的。可以肯定,谷歌不会索引你的网页做出这样的:

User-agent: *
Allow: /index.php
Disallow: /a
Disallow: /b
...
Disallow: /z
Disallow: /0
...
Disallow: /9

所以,你的根 “/” 不匹配不允许规则。

此外,如果您的AdSense不要忘记添加

User-agent: Mediapartners-Google
Allow: /
许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top