我为某个网页写了一个爬行者。该网页有一个robots.txt,看起来像这样:

User-Agent: * 
Crawl-delay: 30

因此,只能每30秒爬一次一次(对吗?)。但是子页面呢?例如,我可以在30秒的情况下爬行以下网站,因为它们是不同的子页面:

www.mysite.com
www.mysite.com/category_1 
www.mysite.com/category_2 

我需要在这些请求之间休息30秒吗?

谢谢,托马斯。

有帮助吗?

解决方案

爬网延迟告诉机器人在连续到同一服务器的连续请求之间等待的秒数。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top