机器人网络质量

https://stackoverflow.com/questions/1658069

11-09-2019
|

题

我正在寻找一个好的开源机器人来确定谷歌索引通常需要的一些质量。

例如

查找重复的标题
无效链接（ jspider 会这样做，我认为还有更多的链接会这样做）
完全相同的页面，但不同的网址
等等，其中等等于谷歌质量要求。

解决方案

您的需求非常具体，因此不太可能有一个开源产品能够完全满足您的需求。

然而，有许多用于构建网络爬虫的开源框架。您使用哪一种取决于您的语言偏好。

例如：

对于Python，尝试刮痧
对于 Java，请尝试蜘蛛纲
对于红宝石，尝试海葵
对于 Perl 来说，尝试 WWW::蜘蛛

一般来说，这些框架将根据您给出的规则提供用于爬行和抓取网站页面的类，但随后由您通过挂钩自己的代码来提取所需的数据。

其他提示

谷歌网站管理员工具 是一项基于网络的服务（而不是按需机器人），它不会做您要求的所有事情 - 但它确实做了其中的一些事情以及许多您没有要求的事情，并且 -来自谷歌 - 毫无疑问它符合你的奇数 “等等，其中等等于谷歌质量要求。” 比其他任何地方都好。

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow