Выделенный сервер на получение источника контента
-
10-12-2019 - |
Вопрос
У меня есть вопрос, который я не уверен, может быть достигнут.Обратите внимание, что я не специалист по поиску SharePoint. У нас есть несколько источников контента.Все работает нормально.
Недавно мы добавили новый сайт, который является массивным (1,5 ТБ!), и, к сожалению, нам нужно полздить содержимое (всего раз в нескольких месяцах, когда данные статически).Моя проблема заключается в том, что, когда я начну полный ползания этого сайта, он убивает другие источники контента, постепенные ползания, которые должны работать каждые 10 минут и обычно заканчиваются примерно через 5 минут.
У нас есть другие серверы доступны, где я могу добавить больше компонентов сканирования, но, насколько я знаю, это не решит проблему, она просто немного облегчает его, добивая времена ползания.
Как я могу указать, что сервер 1 должен отвечать за источник 1 и сервера 2 остальных.Это возможно?Также обратите внимание, что у нас есть быстрый поиск, но я не уверен, может ли это решить проблему либо.Любая отзыва будет оценена.
Решение
This isn't really possible without having multiple farms each with a separate Search Service Instance.
I would suggest you basically split out your 1.5TB of content into a separate farm with a dedicated Search instance. You can even use HOSTS entries on the crawl servers so they have their own local dedicated WFE servers for the crawl process to iterate through:
Farm 1 - Main Farm (business as usual) Farm 2 - 1.5TB Content and Specialist Search Farm
You can then federate the services you need between the two.
The alternative (which is a bit less documented but arguably more ideal) is to use the "Request Management" service which allows you to route specific service requests to specific servers. I don't really know too much about how that all works though..
Другие советы
I would do the following:
- priorize the incremental crawl with "high"
- priorize the new content source with "low"
- limit the requests to the new site in crawler impact rules
- start the crawl on friday night and pause it on monday - repeat until you have the main chunk indexed (use powershell to automate)
With this the impact should not be that hard.