質問

私が働いている会社には、ユーザーのドライブにマッピングされた複数のネットワークドライブに保存および共有される数百万のドキュメントがあります(例: to server1 など)。

私が実装したいのは、ネットワークドライブ上でクロールし、ユーザーがフルテキストインデックスを使用してファイルを高速に見つけることです。

私の現在 インデックス付け ストラテジーLucene.net

しかし、ネットワークを越えて移動するパケットは言うまでもなく、インデックスに何百万ものドキュメントがあるため、ネットワークドライブをインデックス作成する頻度はわかりません。

ですから、問題は、どのように実装すべきかです インデックス付け 周波数?
Google/Windowsデスクトップ検索インデックスの頻度を例として調査していますが、実りはありませんでした。

役に立ちましたか?

解決

多くの答えは、顧客とのサービスレベルの契約に包まれています。 SLAが検索結果が最新であると述べている場合 バツ それよりも数分間、あなたがどのようにあなたの質問に答えますか したほうがいい インデックス作成頻度を実装します。

私と同じように、検索とインデックス作成のために具体的なSLAが整っていない場合は、より柔軟になります。たとえば、とりわけ、私のビジネスのSharePoint検索サーバーを管理しています。当社のWebサイトに加えて、私たちはAインデックスも 多く 構造化されていないファイルスペースのコンテンツの。サーバーはサポートします 満杯増分 クロール。いくつかの増分クロールをタイミングして、増分クロールを完了するのにかかる時間の推定値を取得しました。次に、観測された経過時間よりも快適に大きい間隔で増分クロールをスケジュールしました。フルクロールは、非ピーク時に発生する頻度が低くなるようにスケジュールしました。

詳細は、使用する特定のインデックステクノロジーによって異なる場合がありますが、原則は同じです。

  • できればピーク時と非ピーク時にいくつかのクロールを観察し、クロールスケジュールを最悪の場合よりも快適に大きくするように構成します。
  • 夕方など、ピーク時以外の時間のために、より多くのリソース集約型クロールをスケジュールします。
  • 完全なクロールが完了するのに数時間以上かかる場合、週末にスケジュールする可能性があります。
  • インクリメンタルクロールをサポートするテクノロジーを使用すると、インデックスを新鮮に保ちながら、ピーク時に帯域幅を大幅に減らすことができます。

幸運を!

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top