質問

私はそれにアップロード.docファイルを持っている必要があるアプリケーションを持っています。これらの文書は、インデックスである必要があり、文書のコレクション全体を検索可能にする必要があります。これは、IISとのSQLServerを使用して、Wordがインストールされずに、Windows Serverの上で実行されますが、私はむしろのSQLServerのフルテキストインデックスに縛られないと思います。

私は、インデックス部分のためLucene.Netを使用して考えていたと.docファイルのうち、テキストを取得するための最良の方法はどのようになるかと思いまして。私はおそらく全体の流れに読み、その後、任意の正規の文字を引き出すために正規表現を使用してテキストを抽出でき、それは多額とエラーになりやすいようです。

私は有望な音のIFilterを使用しての記事を見て、私はそれが私が精通してるものではないですので、私はそこにこれを出すだろうと思ってます。

P.S。それが重要な場合は、これらの.docファイルは、その中のメールマージフィールドを持つことになりますとの.doc形式には、他の現在の選択肢はありません。

役に立ちましたか?

解決

iFilterのソリューションは、(あなたが外部プログラムとしてそれを数える場合でも)行く方法があるように限り外部プログラムを必要としませんでしたソリューションとして、それが見えます。

ます。http:/

ここでそれを行うことができる方法についての簡単なCodePlexの記事とコードです/www.codeproject.com/KB/cs/IFilter.aspxする

他のヒント

は、私たちのPHPベースのアプリケーションでは、我々は常にこれと同じ外部プログラムを使用: doc2txt に。その後、我々はテキストを取り、それをデータベースに保存されました。あなたは「doc2txt」をGoogleで検索する場合は、まったく同じことをやって、さまざまなプログラムがあります。ただ、最高のあなたに合ったものを取ります。

たぶんあなたがチェックアウトしたい Solrののます。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top