どのようにインデックスと検索.docファイルへ
質問
私はそれにアップロード.docファイルを持っている必要があるアプリケーションを持っています。これらの文書は、インデックスである必要があり、文書のコレクション全体を検索可能にする必要があります。これは、IISとのSQLServerを使用して、Wordがインストールされずに、Windows Serverの上で実行されますが、私はむしろのSQLServerのフルテキストインデックスに縛られないと思います。
私は、インデックス部分のためLucene.Netを使用して考えていたと.docファイルのうち、テキストを取得するための最良の方法はどのようになるかと思いまして。私はおそらく全体の流れに読み、その後、任意の正規の文字を引き出すために正規表現を使用してテキストを抽出でき、それは多額とエラーになりやすいようです。
私は有望な音のIFilterを使用しての記事を見て、私はそれが私が精通してるものではないですので、私はそこにこれを出すだろうと思ってます。
P.S。それが重要な場合は、これらの.docファイルは、その中のメールマージフィールドを持つことになりますとの.doc形式には、他の現在の選択肢はありません。
解決
iFilterのソリューションは、(あなたが外部プログラムとしてそれを数える場合でも)行く方法があるように限り外部プログラムを必要としませんでしたソリューションとして、それが見えます。
ます。http:/ここでそれを行うことができる方法についての簡単なCodePlexの記事とコードです/www.codeproject.com/KB/cs/IFilter.aspxする
所属していません StackOverflow