robots.txt的ignrore所有文件夹,但爬在根中的所有文件
-
19-09-2019 - |
题
我应该然后执行
用户代理:*
不允许:/
是它那样简单? 或将其也不抓取在根目录下的文件?
基本上可以认为就是我之后 - 爬行所有文件/根页面,但不排除任何文件夹的所有 还是我将不得不显式指定的每个文件夹..即
不允许:/管理
禁止:/这
...等
感谢
NAT
解决方案
您例如将阻塞在根所有的所有文件。
有没有一个“标准” 方法可以轻松地做你想做的,而不指定每个文件夹明确。
一些爬虫然而做支撑延伸一>这将让你做模式匹配。你可以禁止不支持的模式匹配所有的机器人,但允许那些事情。
例如
# disallow all robots
User-agent: *
Disallow: /
# let google read html and files
User-agent: Googlebot
Allow: /*.html
Allow: /*.pdf
Disallow: /
不隶属于 StackOverflow