我需要准则了解如何使用robots.txt问题的是如下。

我有一个直播网站“www.faisal.com”或“faisal.com”,有两个测试Web服务器如下:

“faisal.jupiter.com” 和 “faisal.dev.com”

我想一个robots.txt来处理这一切,我不想从“faisal.jupiter.com”和“faisal.dev.com”爬虫索引页只允许从“www.faisal索引页。 COM”或 “faisal.com”

我想这将是所有Web服务器上,并与应允许索引只住一个网站的robots.txt文件。

有帮助吗?

解决方案

在不允许命令指定只是相对URL,所以我想你不能对所有相同的robots.txt文件。

为什么不能强迫HTTP认证的开发/测试服务器上?

这样的机器人将无法抓取这些服务器。

似乎是一个好主意,如果你想允许特定人员进行检查,但没有的每个人的试图找到在你还没有调试的新版本中的缺陷......

特别是现在,你给了地址,以每个人都在网络上。

其他提示

根据谁需要访问开发和测试服务器 - 以及从那里,你可以使用的.htaccess或iptables的在IP地址级别限制。

或者,您可以独立于Web应用程序本身你的robots.txt文件,这样就可以控制它相对于环境的内容。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top