Вопрос

Компания, у которой работаю в миллионах документов, которые хранятся и совместно используются на нескольких сетевых дисках, сопоставленных на приводы пользователей (например,] D: to Server1 , и т. Д.).

То, что я хотел бы реализовать, состоит в том, чтобы ползти над сетевыми накопителями и позвольте пользователям быстро находить файлы, используя полнотекстовую индексацию.

Мой текущий индексация стратегия является Lucene.net

Но я не уверен, как часто я должен быть индексирование сетевых дисков, потому что есть миллионы документов для индекса и не говоря уже о пакетах, путешествующих по сети.

Таким образом, вопрос в том, как я должен реализовать индексация частота?
Я занимаюсь исследованиями, как часто Google / Windows Desktop Searchies Index Index, но был бесплодным.

Это было полезно?

Решение

Многие ответа завернутся в любом количестве соглашений о уровне обслуживания, которые у вас есть с вашими клиентами. Если ваша SLA заявляет, что результаты поиска являются текущими в течение Икс Количество минут, чем это отвечает на ваш вопрос о том, как вы должен внедрить частоту индексации.

Если вы, как и я, не имеют бетонных SLA на месте для поиска и индексации, то вы можете быть более гибким. Например, мне удается, среди прочего, SharePoint Search Server для моего бизнеса. В дополнение к нашему веб-сайту мы также индексируем много содержания в неструктурированном файловом пространстве. Сервер поддерживает полный а также пособие ползет. Мы рассчитаны на несколько дополнительных ползаний, чтобы получить оценку того, сколько времени требуется, чтобы завершить инкрементную ползу. Затем мы запланировали наши инкрементные ползания на интервале, комфортно больше, чем наблюдаемое время. Мы запланированы полные ползания, чтобы возникать реже при не пиковых временах.

Специфика может варьироваться в зависимости от конкретной технологии индексации, которую вы используете, но принцип такой же:

  • Соблюдайте несколько ползти, предпочтительно при пиковых и не пиковых временах и настраиваем ваше график ползания для удобного количества, чем худший случай.
  • Расписание больше ресурсоемких ползаний для не пиквых времен, таких как вечера.
  • Если полный ползу занимает более нескольких часов, тогда вы, вероятно, запланируете их на выходные.
  • Используя технологию, которая поддерживает инкрементные ползания, может существенно снизить пропускную способность в пиковые времена, когда все еще сохраняя свой индекс свежим.

Удачи!

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top