题
我即将创建一个 机器人.txt 文件。
我在用 记事本.
我应该如何保存文件? UTF8, 美国国家标准协会 或者是什么?
另外,它应该是一个 资本R?
在文件中,我指定了站点地图位置。这应该与 大写S?
User-agent: *
Sitemap: http://www.domain.se/sitemap.xml
谢谢
解决方案
由于文件应该只包含ASCII字符,它通常并不重要,如果你将它保存为ANSI或UTF-8。
但是,你应该选择ANSI,如果你有一个选择,因为当你保存文件为UTF-8,记事本添加Unicode字节顺序标记到该文件的前面,这可能使该文件不可读口译只知道ASCII。
其他提示
至于编码:@Roland 已经搞定了。该文件应仅包含 URL。URL 中的非 ASCII 字符是非法的,因此将文件保存为 ASCII 应该没问题。
如果出于某种原因需要提供 UTF-8,请确保在 content-type
文本文件的标题。您必须在网络服务器的设置中进行此项设置。
关于区分大小写:
根据 robotstxt.org, ,robots.txt 文件需要小写:
请记住文件名全部使用小写:“robots.txt”,而不是“Robots.TXT”。
关键字可能不区分大小写 - 我找不到相关参考 - 但我倾向于做其他人所做的事情:使用大写版本(
Sitemap
).
<强>相信Robots.txt的 “应该” UTF-8编码。强>
“的预期的文件格式的纯文本以UTF-8 即可。该文件的编码 由记录(线)由CR,CR / LF或LF分离“。
/从 https://developers.google.com/webmasters /控制抓取索引/文档/ ROBOTS_TXT
但是,记事本和其他程序将插入导致谷歌不能够读取第一行的文件的开头3字节BOM(字节顺序标记)(显示“无效语法”错误)。
要么;除去BOM,或更容易,的的第一行在添加换行符,使得指令的第一行上线时数2。
引起的BOM的“无效的语法”线将只影响所述第一线,其现在是空的。
行的其余部分将被成功地读取。
我觉得你在思考的事情太多了。我总是这样小写的,只是因为它更容易。
可以查看SO的robots.txt。 https://stackoverflow.com/robots.txt
我推荐任一编码 robots.txt
以 UTF8 编码,不带 BOM,或以 ASCII 编码。
对于包含非 ASCII 字符的 URL,我建议使用 UTF8(在大多数情况下都可以),或者使用 URL 编码来表示 ASCII 中的所有字符。
看一眼 维基百科的 robots.txt
文件 - 它是UTF8编码的。
参见参考资料:
- http://hakre.wordpress.com/2010/07/20/encoding-of-the-robots-txt-file/
- http://www.bing.com/blogs/site_blogs/b/webmaster/archive/2009/11/05/robots-speaking-many-languages.aspx
- http://vincentwehren.com/2011/04/09/robots-txt-utf-8-and-the-utf-8-signature/
- http://www.seroundtable.com/archives/017801.html
我建议你使用ANSI,因为如果您的robots.txt保存为UTF-8,那么它将在谷歌的搜索控制台标记为错误的因了加它的开始(从提到的Unicode字节顺序标记罗兰Illig公司上文)。