質問

私は何千ものCVを持っています、そして私は彼らの背景として「コンピュータサイエンス」を持つCVSを検索したいです。

だから、私はLuceneがこの仕事をしていることを知っていて、私はデータをLuceneに送ってすべての文書を索引付けする必要があることを知っています。

特定のテキスト(「コンプエットサイエンス」)を検索すると、結果に合ったCVSが発生します。

これのために、MSWORD-93 / MSWORD-2007 / PDFをテキストとフィードLuceneに変換する必要があります。

MSWord2007文書からテキストを取得できますが、MSWORD 2003から取得できません。

多くのPDFライターがありますが、これを行うことができるPDFリーダーライブラリを取得しませんでした。

PDFリーダーライブラリに電灯を投入し、MS93文書をテキストに変換したり、Lucene Searchの代替案をお知らせください。

ありがとう、答えに感謝します

役に立ちましたか?

解決

Apache Solr または直接 tika PDFとMS Wordからテキストを抽出し、それをインデックス付けします。どちらもJavaプロジェクトですが、PHPからサーバーを呼び出すことができます。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top