爬网延迟告诉机器人在连续到同一服务器的连续请求之间等待的秒数。
Robots.txt Crawl-Delay也适用于子页面吗?
-
25-07-2022 - |
题
我为某个网页写了一个爬行者。该网页有一个robots.txt,看起来像这样:
User-Agent: *
Crawl-delay: 30
因此,只能每30秒爬一次一次(对吗?)。但是子页面呢?例如,我可以在30秒的情况下爬行以下网站,因为它们是不同的子页面:
www.mysite.com
www.mysite.com/category_1
www.mysite.com/category_2
我需要在这些请求之间休息30秒吗?
谢谢,托马斯。
解决方案
不隶属于 StackOverflow