从索引谷歌停止

https://stackoverflow.com/questions/390368

google-index

23-08-2019
|

题

有没有办法从索引站点停止谷歌？结果

解决方案

的robots.txt

User-agent: *
Disallow: /

这会阻止所有搜索漫游从索引。

有关的详细信息请参阅： http://www.google.com/support/webmasters /bin/answer.py?hl=en&answer=40360

其他提示

我要在这里添加我的答案，作为公认的答案没有适当地触及问题。还记得谷歌阻止抓取并不意味着你可以保持您的内容保密。

我的答案是基于几个来源： https：//开头开发商。 google.com/webmasters/control-crawl-index/docs/getting_started https://sites.google.com/site / webmasterhelpforum / EN / FAQ - 抓取 - 索引---排名

robots.txt文件控制爬行，但不是索引！这两个是完全不同的动作，分别进行。有些可以被抓取，但没有编号，有些甚至被索引的，但从来没有爬。非抓取的页面的链接可能存在于其他网站，这将使谷歌索引遵循它，并尝试索引。

问题是关于索引，其关于该页面收集数据因此它可能是可通过搜索结果。它可阻挡加元标记：

<meta name="robots" content="noindex" />

或添加HTTP标头响应：

X-Robots-Tag: noindex

如果问题是关于爬行那么你当然可以创建robots.txt文件，并把以下行：

User-agent: *
Disallow: /

抓取是执行以收集关于一个特定的网站的结构的信息的动作。例如。您添加通过谷歌网站管理员工具的网站。履带将它放在帐户，并访问您的网站，搜索robots.txt。如果没有找到任何，那么它会假设它可以抓取任何东西（有sitemap.xml文件，以及在此操作，以帮助它是非常重要的，并指定优先级和定义的变化频率）。如果找到该文件，它会遵守规则。成功后爬行它会在某个时刻运行索引用于抓取的网页，但你无法知道什么时候...

重要提示：这一切都意味着你的页面仍然可以在谷歌搜索结果中的无论robots.txt显示

我希望至少有一些用户会阅读这个答案，并有明确的，因为它是至关重要的知道到底发生了什么。

可以通过在阿帕奇CONF加入下面设置在全局或相同的参数可以在虚拟主机被用于禁用它仅用于特定的虚拟主机宽禁用该服务器。

头组X机器人 - 标签 “NOINDEX，nofollow的”

一旦做到这一点，你可以通过Apache头文件测试返回。

卷曲-I staging.mywebsite.com HTTP / 1.1 302实测值日期：星期六，11月26日 2016 GMT 22时36分33秒服务器：Apache / 2.4.18（Ubuntu的）位置：/页/ X-Robots-Tag中：加入noindex，nofollow的内容类型：text / html的;字符集= UTF-8

有几种方法可以阻止爬虫，包括谷歌停止抓取和索引你的网站。

是在服务器级别通过头

Header set X-Robots-Tag "noindex, nofollow"

是在通过robots.txt文件根域级别

User-agent: * Disallow: /

是在页面级别通过机器人元代码

<meta name="robots" content="nofollow" />

不过，我必须说，如果你的网站已经过时，而不是现有的网页/网址，那么你应该等待了一段时间谷歌会自动deindex在下次抓取这些网址 - 读的 https://support.google.com/webmasters/answer/1663419?hl=en

请记住的是，微软的履带为兵，尽管他们的要求遵守robots.txt的，并不总是这样做。

我们的服务器统计数据表明，他们有一些IP的的运行不服从的robots.txt以及一些那些做的爬虫。

我用一个简单的aspx页面继电器结果从谷歌到我的浏览器使用的是假“县”的Cookie在某时刻得到100个结果，我不想让谷歌看到这个继电器页，所以我检查IP地址和如果它与66.249开始，然后我简单地做一个重定向。

点击我的名字，如果你看重的隐私，并想拷贝。

另一个伎俩我用的是有一些javascript调用页面设置标志的会话，因为这样你就知道这是一个布劳尔关闭JavaScript，或者是大多数（不是全部）网络的漫游器无法执行JavaScript多于likly一个机器人。

您也可以以这种方式添加元机器人：

<head> <title>...</title> <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"> </head>

和其他额外的一层是修改的.htaccess，但你需要深刻检查。

使用一个nofollow元标记：

<meta name="robots" content="nofollow" />

要在链路层指定nofollow的，与所述值添加属性rel nofollow的到的链接：

<a href="example.html" rel="nofollow" />

有没有办法从索引站点停止谷歌？

要从根本爬以下meta标签添加到每个页面的head阻止谷歌：

<meta name="googlebot" content="noindex, nofollow">

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow