如何robots.txt中屏蔽那些站点地图中的网址除外的所有URL
-
27-09-2019 - |
题
我需要在什么网址可以被索引控制。要做到这一点,我想允许谷歌索引只在我的站点地图中列出的网址,并从索引别的禁止谷歌。
要解决这个最简单的方法是,如果有一种方法来配置的robots.txt来禁止一切:
用户代理:*
不允许:/
和同时允许在列出的每个URL:
站点地图:sitemap1.xml
站点地图:sitemap2.xml
可以对robots.txt经配置以执行此操作?或是否有任何其他的解决方法?
解决方案
这不是一个robots.txt的相关答案,它关系到机器人协议作为一个整体,我在过去使用这种技术非常频繁,它就像一个魅力。
据我了解你的网站是动态的,那么为什么不利用机器人元标记一>?作为x0n说,一个30MB的文件可能会创建既为您和爬虫加上追加新的生产线,以一个30MB文件的问题是I / O头痛。 你最好的选择,反正在我看来,是注入到网页,你不想要索引是这样的:
<META NAME="ROBOTS" CONTENT="NOINDEX" />
在页面仍然会爬,但它不会被索引。您仍然可以通过在robots.txt网站地图参考提交网站地图,你没有看出来不是在其中有一个meta标签robotted出来的网站地图页面包含,并且它是由所有主要的搜索引擎支持,据我通过百度记为好。
其他提示
您必须添加用于在网站地图中的每个元素的Allow
条目。这是麻烦的,但它很容易做一些编程的东西,在网站地图中读取,或如果正在progarmmatically本身创建的站点地图,然后将它基于相同的代码。
请注意Allow
的一个扩展robots.txt协议,而不是通过所有的搜索引擎支持的,虽然它是由谷歌的支持。
通过登录 http://www.google.com/webmasters/ 您可以提交Sitemap直接向谷歌的搜索引擎。
不隶属于 StackOverflow