过去,我们的一位 IT 专家意外地将 robots.txt 从生产环境中移出。阻止谷歌和其他人在生产中对我们客户的网站建立索引。有没有好的方法来处理这种情况?

提前致谢。

有帮助吗?

解决方案

请您的 IT 人员将 robots.txt 上的文件权限更改为所有用户的“只读”,以便执行以下额外步骤:

  1. 成为管理员/root
  2. 更改权限以允许写入
  3. 使用新文件覆盖 robots.txt

其他提示

作为一个搜索引擎优化,我觉得你的痛苦。

原谅我,如果我错了,但我假设的问题造成的,因为有一个robots.txt您的临时服务器上,因为你需要从搜索引擎发现和爬行它阻断了整个分级环境。

如果是这样的话,我建议你的暂存环境放在内部,其中,这不是一个问题。 (内联网型或网络分段配置)。这可以节省大量的搜索引擎问题,与内容越来越爬说,例如,他们删除,从暂存的robots.txt文件意外,并得到一个重复的站点抓取和索引。

如果这不是一种选择,建议暂存要被放在一个文件夹中像domain.com/staging/在服务器上,在根文件夹仅使用一个robots.txt文件完全屏蔽的是/分段/文件夹。这样,您就不需要使用两个文件,你可以在晚上睡觉知道另一个robots.txt不会被取代你的。

如果这不是一个选择,也许要求他们将其添加到他们的清单以不动这个文件?你只需要检查这 - 一点少睡,却多了几分预防措施

创建部署脚本移动的各种工件(网页,图片,支持文件等),有IT人做运行脚本的举动。确保不包括在该脚本的robots.txt。

我已经设置了代码,在另一地点举行生产的robots.txt并让它监视一个是正在使用的生产服务器上。

如果他们是不同的,那么我会立即覆盖使用中的一个与量产版本。然后,如果它被改写,因为坏的版本将不会存在长时间也没有什么关系。在UNIX环境中,我愿意做这个周期性使用Cron。

为什么你的暂存环境不是在防火墙后面,而不是公开曝光?

问题是不是robots.txt的...问题是您的网络基础设施。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top