我听说网络抓取工具应该只遵循GET请求而不是POST请求。

在现实世界中,这是一个有效的假设吗?

有帮助吗?

解决方案

通常他们不会发出POST请求。我相信,这只是当前的事态,而不是任何地方。一些搜索引擎是试验爬行表单,但是这些仍然是GET请求。

其他提示

您是否在询问抓取工具是否会从表单标记中解析出来并跟踪它们?有些人会。这是一个非常安全的假设,但他们总是会使用GET动词。

垃圾邮件机器人是另一回事。

礼貌抓取工具仅使用GET请求。就像礼貌的爬虫一样遵守bots.txt。

然而,即使谷歌正在快速而宽松地使用礼貌的定义,他们的抓取工具对包括stackoverflow在内的一些网站造成了严重的带宽损害。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top