ヘビーウェイト形式のインデックスを作成するためのIFilterの実装方法

StackOverflow https://stackoverflow.com/questions/464443

  •  19-08-2019
  •  | 
  •  

質問

テキストを抽出するために長時間の計算を実行するMicrosoft Search Server 2008用のIFilterを開発する必要があります。 1つのファイルからテキストを抽出するには、5秒から12時間かかります。デーモンがタイムアウトでリセットしないように、また他のIFilterがハングアップした場合にタイムアウトでリセットできるように、このようなIFilterをどのように設計できますか?

役に立ちましたか?

解決

12時間、すごい!

時間がかかり、多くのファイルがある場合、最良のオプションは、テキストを抽出し、iFilterがアクセスできるようにする前処理アプリケーションを作成することです。

別のオプションは、ドキュメントのhtmlサマリーを作成し、クローラにそれらのインデックスを作成するよう指示することです。要約ページが必要に応じてドキュメント自体に簡単にリンクできる場合。

他のヒント

実際にはまだフィルターを開発していないので、基本的に推測しているだけですが、私がいつも理解している方法は、まさにこの理由でIFilterがチャンクベースであることです。返されるチャンクが<!> quot;十分に小さい<!> quot;であることを確認するのはフィルターの実装次第であるため、呼び出し検索デーモンは、時間がかかりすぎる場合に2つのチャンク間で単純に終了できます。

どうやら、私の仮定が間違っているか、あなたはこの質問をするつもりはないでしょう。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top