МОСС 2007 Ползание

https://stackoverflow.com/questions/101182

01-07-2019
|

Вопрос

Я пытаюсь заставить сканирование работать на двух отдельных фермах, которые у меня есть, но не могу заставить его работать ни на одной из них.У них обоих есть два WFE с дополнительным WFE, настроенным как сервер индексирования.Существует еще один сервер, предназначенный для запросов, и два кластерных внутренних сервера SQL 2005 для базы данных.Я безуспешно перепробовал как минимум 50 различных веб-сайтов, которые нашел с помощью поисковой системы.Я настроил (расширил) свое веб-приложение для использования http://имя_сервера:12345 в качестве зоны по умолчанию и http://abc.companyname.com как пользовательские зоны и зоны интрасети.Когда я ввожу каждый из них в источник контента, а затем пытаюсь запустить сканирование, я получаю пару ошибок в журнале сканирования:

http://имя_сервера:12345 возвращает:
"Не удалось установить соединение с сервером.Пожалуйста, убедитесь, что сайт доступен».

http://abc.companyname.com возвращает:
"Удален собирателем.(Начальный адрес или источник контента, содержащий этот элемент, был удален, и, следовательно, этот элемент был удален.)»

Однако я могу щелкнуть оба URL-адреса, и страница станет доступной.

Есть идеи?

Больше информации:

Я, так сказать, вытер все начисто и запустил еще одно сканирование, чтобы предоставить обновленный образец.

Мои источники контента таковы:

http://имя_сервера:33333
http://sharepoint.portal.fake.com
sps3://имя_сервера:33333

Мои текущие ошибки журнала сканирования:

sps3://имя_сервера:33333
Ошибка в веб-службе PortalCrawl.

http://имя_сервера:33333/mysites
Содержимое для этого URL-адреса исключается сервером из-за отсутствия индексного атрибута.

http://имя_сервера:33333/mysites
Просканировал

sts3://имя_сервера:33333/contentdbid={62a647a...
Просканировал

sts3://имя_сервера:33333
Просканировал

http://имя_сервера:33333
Просканировал

http://sharepoint.portal.fake.com
Краулер не смог связаться с сервером.Убедитесь, что сервер доступен и правильно настроен доступ к брандмауэру.

Я дважды проверил наличие опечаток выше и не вижу их, так что это должно быть точное отражение.

Решение

Следует помнить, что сканирование сайтов SharePoint отличается от сканирования общих файловых ресурсов или веб-сайтов, отличных от SharePoint.

Еще несколько быстрых советов:

сп3:протокол предназначен для сканирования профилей пользователей для поиска людей.Вы можете игнорировать все, что говорит об этом сканер, пока не будете готовы к профилям пользователей.
ваша учетная запись сканирования должна иметь доступ ко всей вашей ферме.Если вы видите ошибки разрешений, найдите статью базы знаний, в которой рассказывается, как сбросить учетную запись сканирования (это специальная команда stsadm.exe).Если вы пытаетесь сканировать содержимое другой фермы, вам придется придумать что-то еще, чтобы предоставить доступ к своей учетной записи сканирования.Я думаю, что это ваша самая большая проблема на данный момент.
Сканер (запускаемый с сервера индексирования) попытается посетить общедоступный URL-адрес.Раньше у меня были проблемы со связью между серверами;убедитесь, что все три сервера могут пинговать друг друга, и убедитесь, что сервер индексирования может получить доступ к общедоступному URL-адресу (откройте IE на сервере индексирования и проверьте его).Если у вас возникли проблемы, пришло время испортить файл хостов вашего индексного сервера.В любом случае это то, что SharePoint делает для вас, так что не расстраивайтесь, делая это.Если вы настроили что-то помимо встроенной проверки подлинности Windows, вам придется приложить больше усилий, чтобы ваш сканер заработал.

В любом случае, в ответах было много разногласий, так что я просто выдвигаю кучу предложений, возможно, одно из них попало в цель.

Другие советы

Я немного запутался в топологии вашей фермы.Машина, установленная как WFE, не может быть индексатором.Машина, установленная как «полная», может быть индексатором, запросом и/или веб-сервером...

Кроме того, вместо изменения учетной записи доступа к контенту по умолчанию вы можете добавить правило сканирования (как только все будет запущено и запущено).

Можете ли вы увидеть, есть ли что-нибудь полезное в журналах %commonprogramfiles%/microsoftshared/web server Extensions/12/logs вашего индексатора?

Файл журнала может быть немного подробным, вы можете выполнить поиск по словам «начато» или «полное», и это обычно приведет вас к строке журнала, с которой началось сканирование.

Кроме того, на вашем компьютере sql вы можете получить дополнительную информацию из таблицы MSScrawlurlhistory.

Можете ли вы создать источник контента для http://www.cnn.com и начать полное сканирование?Вы получаете ту же ошибку(и)?

Кроме того, мы можем захотеть перевести это в автономный режим, дайте мне знать, если вы хотите это сделать.

Однако я не уверен, есть ли способ отправлять личные сообщения через stackoverflow.

Похоже, что большинство ваших проблем связаны с Kerberos.Если у вас не установлено обновление инфраструктуры, Sharepoint не сможет использовать проверку подлинности Kerberos для веб-сайтов с портами, отличными от стандартных (80/443).Именно поэтому (я готов поспорить) вы не можете получить доступ к CA с сервера 5, когда он находится на сервере 4.Если у вас неправильно настроены SPN, CA будет доступен только с той машины, на которой он установлен.Если вы установили Sharepoint, используя порт 80 в качестве URL-адреса по умолчанию, вы сможете без проблем выполнять локальное сканирование SharePoint.Но по задумке сканирование локальных сайтов SharePoint использует URL-адрес по умолчанию для доступа к сайтам SharePoint.Проверить http://codefrob.spaces.live.com/blog/cns!7C69E7B2271B08F6!363.entry для более подробной информации о том, как обеспечить совместную работу Kerberos и Sharepoint.

В разделе «Службы на сервере» проверьте свойства учетной записи сканирования поиска, чтобы убедиться, что она настроена и имеет разрешения на доступ к этим сайтам.

Спасибо за новый вклад!

Итак, я вернулся с выходных и хотел просмотреть ваши советы и попробовать все, а затем сообщить о том, что они не сработали, а затем опубликовать полученные результаты.Хотя произошла забавная вещь.

Я зашел в свой индексатор (имя_сервера5) и попытался подключиться к центральному администратору и главному порталу из Internet Explorer.Ни то, ни другое не сработало.Поэтому я зашел в IIS на индексаторе, чтобы попытаться перейти на главный портал из IIS.Это тоже не сработало, и я получил сообщение об ошибке, сообщающее, что этот порт использует что-то еще.Итак, я увидел свой старый веб-сайт из предыдущей сборки и удалил его из IIS вместе с соответствующим пулом приложений.Затем я запустил пул приложений для веб-сайта из новой сборки и перешел на веб-сайт.Успех.Затем я зашел на сайт из браузера на своем компьютере.Снова успех.Затем я запустил сканирование по полному URL-адресу, а не по имени сервера, например:

http://sharepoint.portal.fake.com

Снова успех.Он просканировал весь портал, включая дочерние сайты, как я и хотел.«Элементы в индексе» заполнялись быстро, и я мог сказать, что двигаюсь.

Я по-прежнему не могу получить доступ к сайту центрального администратора, расположенному на сервере имя4, с имени сервера5.Я не уверен, почему бы и нет, но я не знаю, имеет ли это большое значение на данный момент.

Что это меня оставляет?Что было исправлено?

Я все еще не уверен.Возможно, это была реконструкция.Возможно, как только я перестроил ферму серверов, у меня было все необходимое для ее работы, но это просто не работало, потому что предыдущий веб-сайт все еще находился в IIS.(Забавно, насколько небрежным может быть удаление SharePoint.Ручное удаление баз данных контента, веб-сайтов и пулов приложений кажется необходимым, но, вероятно, этого не должно быть.)

В любом случае, сейчас он работает на моей «тестовой» ферме, поэтому главное — заставить его работать на производственной ферме.Я надеюсь, что после этого опыта это будет не так сложно.

Спасибо за помощь всем!

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow