MOSS2007爬

https://stackoverflow.com/questions/101182

01-07-2019
|

题

我想爬到上工作两个独立的农场，我有，但不能让它工作上的任何一个。他们两个都有两个联合会是一个额外联构成为一个索引服务器。还有一个服务器专用于查询和两个群集SQL2005后端服务器的数据库。我已经成功试图至少有50个不同的网站，我找到与解决方案从一个搜索引擎。我已经配置(可延长)我的网应用程序的使用 http://servername:12345 作为默认的区域和 http://abc.companyname.com 作为的定义和内联网的区域。当我进入这些内容来源，然后再尝试运行一个爬，我得到一对夫妇的错误在爬行日志：

http://servername:12345 返回：
"不能连接到服务器。请确保该网站的访问。"

http://abc.companyname.com 返回：
"删除的收集者。(始地址或内容的来源，其中包含这一项目被删除，因此这一项目已被删除。)"

然而，我可以点击两者的网址和页面访问。

任何想法？

更多信息：

我石板擦拭干净的，可以这么说，跑到另一个爬到提供更新的样品。

我的内容来源是这样的：

http://servername:33333
http://sharepoint.portal.fake.com
sps3://服务器名称:33333

我现在爬行记录错误是：

sps3://服务器名称:33333
错误PortalCrawl网服务。

http://servername:33333/mysites
内容，这个网址被排除在外的服务器，因为一个没有索引的特性。

http://servername:33333/mysites
爬

sts3://服务器名称:33333/contentdbid={62a647a...
爬

sts3://服务器名称:33333
爬

http://servername:33333
爬

http://sharepoint.portal.fake.com
履不能与服务器进行通信。检查服务器和防火墙接的配置是否正确。

我检查过错别字上和我看不出任何这样这应该是一个准确的反映。

解决方案

有一点要记住的是，爬SharePoint网站的不同爬文件共享或非SharePoint网站。

其他一些快速指针：

该sps3:协议是对于爬行用户配置文件人检索。你可以无视任何履说，它直到你已经准备好用户配置文件。
你爬行账户是应该有访问整个农场。如果你看到的权限错误，找到KB篇文章，告诉你该如何重新设置你爬行账户(这是一个特定的stsadm.exe 命令)。如果你试图爬行另一场的内容，然后你会有工作的其他东西了授予你的爬行帐户访问。我想这是你最大的问题。
履(运行，从该索引服务器)将试图访问的公共网址。我已经有服务器间的沟通问题；确保所有三个服务器可以平的每一个其他的，并确保索引服务器可以到达的公共网址(开即索引服务器上检查出来).如果你有问题，是时候弄脏了你的索引服务器主机的文件。这是什么东西SharePoint不会对你无论如何，所以不觉得太糟糕了，这样做。如果你已经设置了任何东西除了综合窗户身份验证，你会必须更加努力地工作，以获得您的履工作。

无论如何，那里已经有很多的回答，所以我只是shotgunning一堆建议，也许他们中的一个目标。

其他提示

我有点困惑你的农场拓扑结构。一个机器安装一个公正的联合不能被索引器。一个机器安装为"完成"可以是一种索引，查询和/或联...

还有，而不是改变默认的内容存取账户，则可能需要添加一个爬规则，而不是(一旦一切都是建立和运行)

你可以看到，如果任何有帮助的是在该%commonprogramfiles%/microsoft共享/web server扩展/12/记录在您的indexer?

日志文件可能有点详细，可以搜索"开始"或"完全"，通常会得到你要的行日志里你爬开始。

此外，在您的sql机,你可能能够获得更多的信息，从MSScrawlurlhistory表。

你可以创建一个内容源于 http://www.cnn.com 并开始一个全面爬？做你得到同样的错误(s)?

此外，我们可能希望采取这种离线，如果让我知道你想做到这一点。

我不确定如果有一个方式发送私人信息通过计算器。

你的大多数问题都关系到Kerberos，这听起来像。如果你没有的基础设施更新应用，然后Sharepoint将不能使用kerberos授权的网站w/非默认(80/443)港口。这也是为什么(我敢打赌)，你不能访问CA从服务器上5时，它的服务器上的4.如果你没有Spn的设置是否正确，然后CA会仅可从机器安装。如果你已经安装了Sharepoint使用港口的80作为默认的url你能做到的地方sharepoint爬没有任何故障。但是，通过设计的本地sharepoint网站爬使用默认的网址访问sharepoint网站。检查了 http://codefrob.spaces.live.com/blog/cns!7C69E7B2271B08F6!363.项一些更详细的关于如何获得Kerberos&Sharepoint的工作以及在一起。

在服务器上的服务部分检查的性质的搜索爬行账户，以确保它被设定，并认为它有权访问这些网站。

谢谢你的新输入!

所以我回来的时候从我的周末，我想通过你的指针和尝试的每一项然后汇报有关如何，他们没有工作，然后将结果，我得到了。有趣的事情发生了，虽然。

我去了我的索引(servername5)和我试图连接到中央管理和主门户网站，从因特网浏览器。既不是工作。所以我走进IIS在有索引，以试图浏览的主要门户，内IIS。没有工作，我收到一个错误，告诉我这东西是使用该港口。所以，我看到了我的老网站从先前的建设和我删除它从IIS随着相应的应用程序池。然后我就开始应用游泳池的网站由新建立和浏览的网站。成功。那么我浏览该网站的浏览器在我自己的电脑。成功。然后我跑了抓取由全网址，不服务器名称，如：

http://sharepoint.portal.fake.com

成功。它爬整个门户网站，包括分网站只是像我想要的。将"的项目索引"填充的迅速和我可以告诉我滚动。

我仍然不能访问的中央管理的网站托管servername4从servername5.我不知道为什么没有但是我不知道这问题很多，在这一点上。

在哪这不会离开我吗？什么是解决？

我仍然不确定。也许这就是重建。也许我重建了服务器的农场，我有我需要的一切得到它的工作，但这只是不起作用，因为以前的网站仍在IIS。(这是多么有趣的邋遢SharePoint联合国安装即可。手动删除的内容数据库、网站和应用泳池，似乎有必要，可能不应该是这种情况。)

在任何事件，这是工作现在在我的"测试"场所以关键是得到它的工作月生产的农场。我希望它不会那么困难之后，这方面的经验。

谢谢你的帮助来自每一个人！

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow