如何禁止搜索页面robots.txt

https://stackoverflow.com/questions/1517541

robots.txt

19-09-2019
|

题

我需要禁止 http://example.com/startup?page=2 搜索引擎编制索引。

我想要的 http://example.com/startup 要编制索引的，但不是 http://example.com/startup?page=2 和3等。

此外，启动可以是随机的，例如 http://example.com/XXXXX?page

解决方案

像这样的作品，通过谷歌网站管理员工具证实“测试robots.txt”功能：

User-Agent: *
Disallow: /startup?page=

不允许此字段的值指定的部分URL这并不是参观。这可以是一个完整路径，或部分路径;启动任何URL 与此值将不被检索。

然而，如果该URL的第一部分将改变的，必须使用通配符：

User-Agent: *
Disallow: /startup?page=
Disallow: *page=
Disallow: *?page=

其他提示

您可以把这个页面上，你不想索引：

<META NAME="ROBOTS" CONTENT="NONE">

这告诉机器人不对网页进行索引。

在搜索页面，其可以是更有趣的使用方法：

<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">

这指示机器人不索引当前页面，但还是按照此页面上的链接，使他们能够获得在搜索到的网页。

创建一个文本文件和名称： robots.txt
增加用户的代理，并禁止的部分(见下面的示例)
将文件放在根你的网站

示例：

###############################
#My robots.txt file
#
User-agent: *
#
#list directories robots are not allowed to index 
#
Disallow: /testing/
Disallow: /staging/
Disallow: /admin/
Disallow: /assets/
Disallow: /images/
#
#
#list specific files robots are not allowed to index
#
Disallow: /startup?page=2
Disallow: /startup?page=3
Disallow: /startup?page=3
# 
#
#End of robots.txt file
#
###############################

这里有一个链接到谷歌的实际 robots.txt 文件

你可以得到一些好的信息在网站管理员的帮助的话题上阻止或删除网页使用robots.txt 文件

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow