SharePoint 服务器 2007, ,还有搜索功能和爬虫。然而,爬虫程序有一定的局限性,它在爬行外部站点时仅支持基本身份验证,并且无法告诉它忽略 no-index、no-follow 属性。

现在,有一个我想要索引的网站,不幸的是这个网站使用它自己的身份验证系统,并且它在页面上使用 no-index,no-follow 。当我控制该站点时,我可以删除属性,但这样做需要 PITA。此外,它并没有解决身份验证问题。

所以我只是想知道是否可以以某种方式扩展 Sharepoint 的 Crawler?

有帮助吗?

解决方案

MOSS 抓取具有不同形式身份验证的网站的限制应该已在 MOSS SP1 中得到解决。:

http://www.microsoft.com/downloads/details.aspx?FamilyID=ad59175c-ad6a-4027-8c2f-db25322f791b&displaylang=en

以下是一篇文章的链接,该文章描述了如何获取 SP1 之前的 MOSS 的修补程序以启用通过表单身份验证对网站进行爬网:

http://blogs.microsoft.co.il/blogs/adir_ron/archive/2007/10/11/moss-search-for-sso-form-b​​ased-authentication-sites.aspx

希望有帮助!

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top