Lucene、Solr、またはNutchを使用して簡単な検索エンジンを作成するにはどうすればよいですか?
質問
当社には数千のPDFドキュメントがあります。 Lucene、Solr、またはNutchを使用して簡単な検索エンジンを作成するにはどうすればよいですか?基本的なJava / JSP Webページを提供します。ユーザーは単語を入力して基本的なクエリを実行し、一致するすべてのPDFのドキュメントリンクを表示できます。
解決
Luceneファミリーのプロジェクトでは、PDFをネイティブに処理することはできませんが、ドロップできるユーティリティや、独自のロール方法に関するよく書かれた例があります。
Luceneは必要なことはほとんど何でも行いますが、トニーが上で述べたように、時間に関してオーバーヘッドがあります。数千のドキュメントは実際にはそれほど多くありませんので、より軽量な代替手段で逃げることができるかもしれません。
そうは言っても、Solrを見ることをお勧めします。Luceneよりもセットアップがはるかに簡単で、バックアップ、レプリケーションなどをサポートし、ユースケースに非常に適した気の利いたJSONインターフェースを備えています。 : http://wiki.apache.org/solr/SolJSON
他のヒント
luceneは幸運に恵まれましたが、クリック、インストール、検索ではなく、少し手間がかかります。
ダウンロードしてインストールし、10分以内に検索できるものが必要な場合は、無料のOminifind Yahoo Edition httpをご覧ください。 ://omnifind.ibm.yahoo.net/ 、これはLuceneを使用しますが、インストール時に構成されて実行できるようにパッケージ化されているため、Luceneを試すよりはるかに簡単な方法です。
Nutchで有効になっているNutch + Lucene + Pdfプラグインがソリューションです。 Nutchでは、pdfプラグインを有効にしてPDFを解析できます。
Luceneでは、クロールされ解析されたデータのインデックスを作成できます。Nutchには、検索インターフェイスを提供するサーブレットがあります。
内部LANにも同じものを使用します。
Google検索アプライアンス http://www.google.com/enterprise/gsa/
PDFファイルを管理するシステムが必要だと思います。 dspaceシステムを使用してみてください。 Dspaceはデジタルライブラリであり、Luceneに基づいています。 www.dspace.org。
eprints をご覧ください。新しいドキュメントを追加するためのワークフローが含まれ、PDFに自動的にインデックスを付けてサムネイルを作成し、かなり包括的な全文検索機能を備えています。また、簡単にカスタマイズしてブランド化することもできます。
車輪を再発明する理由。再び。
このフォーラムでこのような広範な質問に答えることは難しいでしょう。 Lucene in Action 、の本をご覧になることをお勧めします。インデックス作成と検索の基本を非常に読みやすい方法で説明しています。
アプリケーションを考えると、NutchとSolrはおそらく必要ないと思われます。すべてのドキュメントはローカルで利用できるため、Nutchはおそらく役に立たないでしょう。 Solrは、クエリの負荷が高い場合にサーチャーのクラスターを管理するのに役立ちますが、Luceneは非常にパフォーマンスが高く、大きなドキュメントセットを非常にスケーラブルな方法で処理します。
あなたの努力の多くを消費するかもしれない1つの領域は、PDFの使用です。 PDFドキュメントのインデックスを作成することは可能で、 Luceneコントリビューションにより生の抽出が容易になります。 PDFからのテキストですが、ドキュメントによっては、結果の品質が異なる場合があります。多くの場合、PDF文書内のキーワードのコンテキストは、フォーマットの指示のために不明確であり、近接検索を実行したり、ヒットのコンテキストを表示したりするのが難しくなります。
あなたが見るかもしれない素晴らしい無料の検索技術は、IBM Yahoo!です。無料検索。 Luceneを内部で使用する計画を彼らが引き継いだかどうかはわかりませんが、無料の検索技術を使用することは非常に素晴らしい、東の1つです。最大50万のドキュメントを処理し、PDFやその他の非テキスト形式もサポートしていると思います。グラフィックユーザーインターフェイス。検索結果のカスタマイズ、および基本的な検索分析。基本的なシソーラスと強力なAPIにより、すぐに使用できる結果が自分の好みに合わない場合でも、ほとんど何でもできます。 50万件未満のドキュメントがあった多くのクライアントにこれを提案しましたが、彼らはそれを気に入っています。
Linuxサーバーを使用している場合は、 Beagle を使用してインデックスを作成してから、付属の検索機能を使用してください。 (実験的な)Web検索インターフェイスを備えており、FireFox検索ボックスにもフックできます。
ファイルが含まれていると自動的にインデックスが作成されます。Luceneに独自の検索インターフェイスを作成するよりも、ビーグルを強化または修正する方がはるかに効率的であると思われます。
Macにいるという(私見の)明確な利点があるので、 SearchLight を使用します。やや古いG5で。 Mac OSに組み込まれたインデックスサービスであるSpotlightの優れたWebインターフェイス。