ヘビーウェイト形式のインデックスを作成するためのIFilterの実装方法
-
19-08-2019 - |
質問
テキストを抽出するために長時間の計算を実行するMicrosoft Search Server 2008用のIFilterを開発する必要があります。 1つのファイルからテキストを抽出するには、5秒から12時間かかります。デーモンがタイムアウトでリセットしないように、また他のIFilterがハングアップした場合にタイムアウトでリセットできるように、このようなIFilterをどのように設計できますか?
解決
12時間、すごい!
時間がかかり、多くのファイルがある場合、最良のオプションは、テキストを抽出し、iFilterがアクセスできるようにする前処理アプリケーションを作成することです。
別のオプションは、ドキュメントのhtmlサマリーを作成し、クローラにそれらのインデックスを作成するよう指示することです。要約ページが必要に応じてドキュメント自体に簡単にリンクできる場合。
他のヒント
実際にはまだフィルターを開発していないので、基本的に推測しているだけですが、私がいつも理解している方法は、まさにこの理由でIFilterがチャンクベースであることです。返されるチャンクが<!> quot;十分に小さい<!> quot;であることを確認するのはフィルターの実装次第であるため、呼び出し検索デーモンは、時間がかかりすぎる場合に2つのチャンク間で単純に終了できます。
どうやら、私の仮定が間違っているか、あなたはこの質問をするつもりはないでしょう。
所属していません StackOverflow