题
我需要禁止 http://example.com/startup?page=2 搜索引擎编制索引。
我想要的 http://example.com/startup 要编制索引的,但不是 http://example.com/startup?page=2 和3等。
此外,启动可以是随机的,例如 http://example.com/XXXXX?page
解决方案
像这样的作品,通过谷歌网站管理员工具证实“测试robots.txt”功能:
User-Agent: *
Disallow: /startup?page=
不允许此字段的值 指定的部分URL这并不是 参观。这可以是一个完整路径, 或部分路径;启动任何URL 与此值将不被检索。
然而,如果该URL的第一部分将改变的,必须使用通配符:
User-Agent: *
Disallow: /startup?page=
Disallow: *page=
Disallow: *?page=
其他提示
您可以把这个页面上,你不想索引:
<META NAME="ROBOTS" CONTENT="NONE">
这告诉机器人不对网页进行索引。
在搜索页面,其可以是更有趣的使用方法:
<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">
这指示机器人不索引当前页面,但还是按照此页面上的链接,使他们能够获得在搜索到的网页。
- 创建一个文本文件和名称: robots.txt
- 增加用户的代理,并禁止的部分(见下面的示例)
- 将文件放在根你的网站
示例:
###############################
#My robots.txt file
#
User-agent: *
#
#list directories robots are not allowed to index
#
Disallow: /testing/
Disallow: /staging/
Disallow: /admin/
Disallow: /assets/
Disallow: /images/
#
#
#list specific files robots are not allowed to index
#
Disallow: /startup?page=2
Disallow: /startup?page=3
Disallow: /startup?page=3
#
#
#End of robots.txt file
#
###############################
这里有一个链接到谷歌的实际 robots.txt 文件
你可以得到一些好的信息在网站管理员的帮助的话题上 阻止或删除网页使用robots.txt 文件
不隶属于 StackOverflow