robots.txt的ignrore所有文件夹，但爬在根中的所有文件

题

我应该然后执行

用户代理：*

不允许：/

是它那样简单？或将其也不抓取在根目录下的文件？

基本上可以认为就是我之后 - 爬行所有文件/根页面，但不排除任何文件夹的所有还是我将不得不显式指定的每个文件夹..即

不允许：/管理

禁止：/这

...等

感谢

NAT

解决方案

您例如将阻塞在根所有的所有文件。

有没有一个“标准” 方法可以轻松地做你想做的，而不指定每个文件夹明确。

例如

# disallow all robots
User-agent: *
Disallow: /

# let google read html and files
User-agent: Googlebot
Allow: /*.html
Allow: /*.pdf
Disallow: /