我需要禁止 http://example.com/startup?page=2 搜索引擎编制索引。

我想要的 http://example.com/startup 要编制索引的,但不是 http://example.com/startup?page=2 和3等。

此外,启动可以是随机的,例如 http://example.com/XXXXX?page

有帮助吗?

解决方案

像这样的作品,通过谷歌网站管理员工具证实“测试robots.txt”功能:

User-Agent: *
Disallow: /startup?page=
  

不允许此字段的值   指定的部分URL这并不是   参观。这可以是一个完整路径,   或部分路径;启动任何URL   与此值将不被检索。

然而,如果该URL的第一部分将改变的,必须使用通配符:

User-Agent: *
Disallow: /startup?page=
Disallow: *page=
Disallow: *?page=

其他提示

您可以把这个页面上,你不想索引:

<META NAME="ROBOTS" CONTENT="NONE">

这告诉机器人不对网页进行索引。

在搜索页面,其可以是更有趣的使用方法:

<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">

这指示机器人不索引当前页面,但还是按照此页面上的链接,使他们能够获得在搜索到的网页。

  1. 创建一个文本文件和名称: robots.txt
  2. 增加用户的代理,并禁止的部分(见下面的示例)
  3. 将文件放在根你的网站

示例:

###############################
#My robots.txt file
#
User-agent: *
#
#list directories robots are not allowed to index 
#
Disallow: /testing/
Disallow: /staging/
Disallow: /admin/
Disallow: /assets/
Disallow: /images/
#
#
#list specific files robots are not allowed to index
#
Disallow: /startup?page=2
Disallow: /startup?page=3
Disallow: /startup?page=3
# 
#
#End of robots.txt file
#
###############################

这里有一个链接到谷歌的实际 robots.txt 文件

你可以得到一些好的信息在网站管理员的帮助的话题上 阻止或删除网页使用robots.txt 文件

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top