ネットワークドライブのインデックス作成周波数

https://stackoverflow.com/questions/3544016

30-09-2019
|

質問

私が働いている会社には、ユーザーのドライブにマッピングされた複数のネットワークドライブに保存および共有される数百万のドキュメントがあります（例： to server1 など）。

私が実装したいのは、ネットワークドライブ上でクロールし、ユーザーがフルテキストインデックスを使用してファイルを高速に見つけることです。

私の現在インデックス付け ストラテジー は Lucene.net

しかし、ネットワークを越えて移動するパケットは言うまでもなく、インデックスに何百万ものドキュメントがあるため、ネットワークドライブをインデックス作成する頻度はわかりません。

ですから、問題は、どのように実装すべきかですインデックス付け 周波数?
Google/Windowsデスクトップ検索インデックスの頻度を例として調査していますが、実りはありませんでした。

解決

多くの答えは、顧客とのサービスレベルの契約に包まれています。 SLAが検索結果が最新であると述べている場合バツそれよりも数分間、あなたがどのようにあなたの質問に答えますか したほうがいい インデックス作成頻度を実装します。

私と同じように、検索とインデックス作成のために具体的なSLAが整っていない場合は、より柔軟になります。たとえば、とりわけ、私のビジネスのSharePoint検索サーバーを管理しています。当社のWebサイトに加えて、私たちはAインデックスも多く構造化されていないファイルスペースのコンテンツの。サーバーはサポートします満杯と増分クロール。いくつかの増分クロールをタイミングして、増分クロールを完了するのにかかる時間の推定値を取得しました。次に、観測された経過時間よりも快適に大きい間隔で増分クロールをスケジュールしました。フルクロールは、非ピーク時に発生する頻度が低くなるようにスケジュールしました。

詳細は、使用する特定のインデックステクノロジーによって異なる場合がありますが、原則は同じです。

できればピーク時と非ピーク時にいくつかのクロールを観察し、クロールスケジュールを最悪の場合よりも快適に大きくするように構成します。
夕方など、ピーク時以外の時間のために、より多くのリソース集約型クロールをスケジュールします。
完全なクロールが完了するのに数時間以上かかる場合、週末にスケジュールする可能性があります。
インクリメンタルクロールをサポートするテクノロジーを使用すると、インデックスを新鮮に保ちながら、ピーク時に帯域幅を大幅に減らすことができます。

幸運を！

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow