質問

オープンソースの検索インデックス ライブラリを探しています。組み込み Web アプリケーションに使用されるため、コード サイズは小さい必要があります。できれば C、C++、または PHP で記述され、インデックスを保存するためにデータベースをインストールする必要はありません。インデックスは代わりにファイル (xml、txt など) に保存する必要があります。xapian や clucene などの有名な検索ライブラリを調べてみました。これらは優れていますが、組み込みシステムとしてはコード サイズが比較的大きくなります。

これは Linux プラットフォーム上で実行され、HTML ファイルのインデックス作成に使用されます。

使用するのに適した検索ライブラリ/API について何か考えはありますか?

ありがとう。

役に立ちましたか?

他のヒント

ちょっと、あなた。いくつかあります。不明瞭な順に...

他にもたくさんあると思いますが、私が思いついたのはこれらです。幸運を :)

初め:インデックスをどこかに保存する必要があります。したがって、メモリのみのインデックスが必要な場合を除き、データ ファイルが必要になります。

一般的なアイテムのインデックスを作成するには、sqlite をお勧めします。 http://www.sqlite.org/. 。大量のデータがあり、それを複数のインデックスで処理する必要がある場合は、メモリ専用モードでも使用します。

それはあなたの要件によって異なります。Lucene (Java) の完全なディストリビューションは最大 3MB の JAR ファイルですが、実際には 1MB 未満まで削減できます。CLucene は、実際にはおそらくかなり小さいと思われます。どこまで下げる必要があるのでしょうか?...

スウィッシュ-E は C で書かれており、あなたが望むことを実行できるかもしれません。データベースを必要とせず、独自のバイナリ インデックス ファイル形式を使用します。

私も使ったことがあります ht://ディグ しかし、そのソフトウェアがメンテナンスされてから長い時間が経っているようです。

どちらも Linux 上でコンパイルされ、HTML に問題なくインデックスが作成されます。

3 番目のオプションは、 中国 によって使われた オーストラリアLII. 。最新バージョンを入手できるかどうかを確認するには、そこのチームに問い合わせてください。Linux ではそれほど問題なくコンパイルできるはずです。これは実際には組み込みシステム向けに設計されたものではありません (SINO は Size Is No Object の略です) が、最後に調べたところ、まともな API があり、比較的小型でした (つまり、組み込みシステム向けに設計されていませんが、同様に動作する可能性があります)。HTMLを対象としています。かなり速いインデックス作成。一見の価値はあると思います。(開示:昔そこで働いていました)

最後に、使用します ソルル に基づいています ルシーン. 。Solr は、サーバーへの XML ドキュメントの POST に基づく単純な API を使用します。言語に関係なく、非常に簡単に操作できます。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top