我想爬到上工作两个独立的农场,我有,但不能让它工作上的任何一个。他们两个都有两个联合会是一个额外联构成为一个索引服务器。还有一个服务器专用于查询和两个群集SQL2005后端服务器的数据库。我已经成功试图至少有50个不同的网站,我找到与解决方案从一个搜索引擎。我已经配置(可延长)我的网应用程序的使用 http://servername:12345 作为默认的区域和 http://abc.companyname.com 作为的定义和内联网的区域。当我进入这些内容来源,然后再尝试运行一个爬,我得到一对夫妇的错误在爬行日志:

http://servername:12345 返回:
"不能连接到服务器。请确保该网站的访问。"

http://abc.companyname.com 返回:
"删除的收集者。(始地址或内容的来源,其中包含这一项目被删除,因此这一项目已被删除。)"

然而,我可以点击两者的网址和页面访问。

任何想法?


更多信息:

我石板擦拭干净的,可以这么说,跑到另一个爬到提供更新的样品。

我的内容来源是这样的:

http://servername:33333
http://sharepoint.portal.fake.com
sps3://服务器名称:33333

我现在爬行记录错误是:

sps3://服务器名称:33333
错误PortalCrawl网服务。

http://servername:33333/mysites
内容,这个网址被排除在外的服务器,因为一个没有索引的特性。

http://servername:33333/mysites

sts3://服务器名称:33333/contentdbid={62a647a...

sts3://服务器名称:33333

http://servername:33333

http://sharepoint.portal.fake.com
履不能与服务器进行通信。检查服务器和防火墙接的配置是否正确。

我检查过错别字上和我看不出任何这样这应该是一个准确的反映。

有帮助吗?

解决方案

有一点要记住的是,爬SharePoint网站的不同爬文件共享或非SharePoint网站。

其他一些快速指针:

  • 该sps3:协议是对于爬行用户配置文件人检索。你可以无视任何履说,它直到你已经准备好用户配置文件。
  • 你爬行账户是应该有访问整个农场。如果你看到的权限错误,找到KB篇文章,告诉你该如何重新设置你爬行账户(这是一个特定的stsadm.exe 命令)。如果你试图爬行另一场的内容,然后你会有工作的其他东西了授予你的爬行帐户访问。我想这是你最大的问题。
  • 履(运行,从该索引服务器)将试图访问的公共网址。我已经有服务器间的沟通问题;确保所有三个服务器可以平的每一个其他的,并确保索引服务器可以到达的公共网址(开即索引服务器上检查出来).如果你有问题,是时候弄脏了你的索引服务器主机的文件。这是什么东西SharePoint不会对你无论如何,所以不觉得太糟糕了,这样做。如果你已经设置了任何东西除了综合窗户身份验证,你会必须更加努力地工作,以获得您的履工作。

无论如何,那里已经有很多的回答,所以我只是shotgunning一堆建议,也许他们中的一个目标。

其他提示

我有点困惑你的农场拓扑结构。一个机器安装一个公正的联合不能被索引器。一个机器安装为"完成"可以是一种索引,查询和/或联...

还有,而不是改变默认的内容存取账户,则可能需要添加一个爬规则,而不是(一旦一切都是建立和运行)

你可以看到,如果任何有帮助的是在该%commonprogramfiles%/microsoft共享/web server扩展/12/记录在您的indexer?

日志文件可能有点详细,可以搜索"开始"或"完全",通常会得到你要的行日志里你爬开始。

此外,在您的sql机,你可能能够获得更多的信息,从MSScrawlurlhistory表。

你可以创建一个内容源于 http://www.cnn.com 并开始一个全面爬?做你得到同样的错误(s)?

此外,我们可能希望采取这种离线,如果让我知道你想做到这一点。

我不确定如果有一个方式发送私人信息通过计算器。

你的大多数问题都关系到Kerberos,这听起来像。如果你没有的基础设施更新应用,然后Sharepoint将不能使用kerberos授权的网站w/非默认(80/443)港口。这也是为什么(我敢打赌),你不能访问CA从服务器上5时,它的服务器上的4.如果你没有Spn的设置是否正确,然后CA会仅可从机器安装。如果你已经安装了Sharepoint使用港口的80作为默认的url你能做到的地方sharepoint爬没有任何故障。但是,通过设计的本地sharepoint网站爬使用默认的网址访问sharepoint网站。检查了 http://codefrob.spaces.live.com/blog/cns!7C69E7B2271B08F6!363.项 一些更详细的关于如何获得Kerberos&Sharepoint的工作以及在一起。

在服务器上的服务部分检查的性质的搜索爬行账户,以确保它被设定,并认为它有权访问这些网站。

谢谢你的新输入!

所以我回来的时候从我的周末,我想通过你的指针和尝试的每一项然后汇报有关如何,他们没有工作,然后将结果,我得到了。有趣的事情发生了,虽然。

我去了我的索引(servername5)和我试图连接到中央管理和主门户网站,从因特网浏览器。既不是工作。所以我走进IIS在有索引,以试图浏览的主要门户,内IIS。没有工作,我收到一个错误,告诉我这东西是使用该港口。所以,我看到了我的老网站从先前的建设和我删除它从IIS随着相应的应用程序池。然后我就开始应用游泳池的网站由新建立和浏览的网站。成功。那么我浏览该网站的浏览器在我自己的电脑。成功。然后我跑了抓取由全网址,不服务器名称,如:

http://sharepoint.portal.fake.com

成功。它爬整个门户网站,包括分网站只是像我想要的。将"的项目索引"填充的迅速和我可以告诉我滚动。

我仍然不能访问的中央管理的网站托管servername4从servername5.我不知道为什么没有但是我不知道这问题很多,在这一点上。

在哪这不会离开我吗?什么是解决?

我仍然不确定。也许这就是重建。也许我重建了服务器的农场,我有我需要的一切得到它的工作,但这只是不起作用,因为以前的网站仍在IIS。(这是多么有趣的邋遢SharePoint联合国安装即可。手动删除的内容数据库、网站和应用泳池,似乎有必要,可能不应该是这种情况。)

在任何事件,这是工作现在在我的"测试"场所以关键是得到它的工作月生产的农场。我希望它不会那么困难之后,这方面的经验。

谢谢你的帮助来自每一个人!

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top