题
让我们说有一个网站,举办社区生成的内容,目标的一个非常特定的用户。现在,让我们说的利益促进更好的社会,我有一个主题领域的社区成员可以发布或谈论他们想要的任何东西,无论网站的主要主题。
现在,我 想 大部分的内容得到编制索引。明显的例外是关主题内容。每个线都有它自己的网页,但是,所有的线都列在同一个文件夹所以我不可能仅排除搜索引擎来自一个文件夹的地方。它必须每页。一个传统robots.txt 文件将获得巨大的,这样如何我还能做到这一点?
解决方案
这将适用于所有行为搜索引擎,只是将它添加到 <head>
:
<meta name="robots" content="noindex, nofollow" />
其他提示
如果使用Apache我会使用国防部-重写别名robots.txt 一个剧本,可能会动态产生必要的内容。
编辑:如果使用IIS你可以使用 ISAPIrewrite 这样做。
Simlarly到@詹姆斯*马歇尔的建议-在ASP.NET 你可以使用一个HttpHandler向话robots.txt 一个脚本生成的内容。
你可以实现它通过替换robots.txt 与动态脚本生成的产出。Apache你可以做简单。要规则来实现。
RewriteRule ^robots\.txt$ /robots.php [NC,L]
只是为了那个线程,确保你的头中包含一个noindex元的标签。那是一个多方式来告诉搜索引擎不要爬你页比其他阻挡在robots.txt
只是记得一个robots.txt 禁止将无法防止谷歌从索引页面的链接从外部网站,它所做的是防止爬行内部。看看 http://www.webmasterworld.com/google/4490125.htm 或 http://www.stonetemple.com/articles/interview-matt-cutts.shtml.
你可以禁止搜索引擎读取或索引内容的限制机器人的元的标签。在这种方式,蜘蛛会考虑你的指示,将索引只有这样的网页。
块动态网页robots.txt 使用这个代码
User-agent:*
禁止:/setnewsprefs?
禁止:/index.html?
禁止:/?
允许:/?hl=
禁止:/?hl=*&