ヘビーウェイト形式のインデックスを作成するためのIFilterの実装方法

https://stackoverflow.com/questions/464443

19-08-2019
|

質問

テキストを抽出するために長時間の計算を実行するMicrosoft Search Server 2008用のIFilterを開発する必要があります。 1つのファイルからテキストを抽出するには、5秒から12時間かかります。デーモンがタイムアウトでリセットしないように、また他のIFilterがハングアップした場合にタイムアウトでリセットできるように、このようなIFilterをどのように設計できますか？

解決

12時間、すごい！

時間がかかり、多くのファイルがある場合、最良のオプションは、テキストを抽出し、iFilterがアクセスできるようにする前処理アプリケーションを作成することです。

別のオプションは、ドキュメントのhtmlサマリーを作成し、クローラにそれらのインデックスを作成するよう指示することです。要約ページが必要に応じてドキュメント自体に簡単にリンクできる場合。

他のヒント

実際にはまだフィルターを開発していないので、基本的に推測しているだけですが、私がいつも理解している方法は、まさにこの理由でIFilterがチャンクベースであることです。返されるチャンクが<！> quot;十分に小さい<！> quot;であることを確認するのはフィルターの実装次第であるため、呼び出し検索デーモンは、時間がかかりすぎる場合に2つのチャンク間で単純に終了できます。

どうやら、私の仮定が間違っているか、あなたはこの質問をするつもりはないでしょう。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow