我正在Windows Server 2008上使用SharePoint Server 2007。我正在使用搜索中心来爬网(即来自其他网站的爬网网页)。我的问题与搜索中心的Web数据源日志页面显示的爬行页面计数器有关。

我的问题是,显示了3个爬行计数器,成功的计数器,失败计数器和警告计数器。对于每个计数器值,会有任何重复URL吗?例如,报道了Web数据源www.mysite.com的报告,成功抓取了1000个,10个失败,没有警告。这是否意味着在搜索中心中存储了1000个不同的网页?我不确定1000页中是否有重复的URL?

顺便说一句:我有这种困惑,因为我设置了每日增量页面爬网,例如 http://www.mysite.com/1.html 昨天和今天都被爬网(两种情况都是成功的爬网)吗,会被计算两次吗?感谢是否有人可以提供有关柜台的含义的一些文件?

预先感谢乔治

有帮助吗?

解决方案

如果您抓取常规网站,它将遵循每个链接。它不应该重复页面,但会看到对主页的引用很多次。最终,您将通过查看索引计数中的项目而不是爬行的项目数来确定页面或项目的数量。

许可以下: CC-BY-SA归因
scroll top