Heroku、データベース、またはインデクサーの選択に関する全文検索？

https://stackoverflow.com/questions/9305516

25-10-2019
|

質問

私は実装を探しています（ビールのように無料）Herokuの小さなアプリケーションでの全文検索（最小数のユーザー数、限定データセット）。しかし、私はそうするための最良のパターンを見つけるのに苦労しています。1つのオプションは、10MBのXeroundの制限を使用することです（近い将来これを超えるかもしれません）。 mongodbまたはcouchdbで。

このアプリケーションのドキュメントは、メーリングリストから検索可能にしたいアーカイブされた電子メールです。そのような電子メール、プレーンテキスト、約700バイあたりの電子メール、プレーンテキストがあります。

ファジー検索機能を好むので、Hooshを推進します。

私の要件の中で（私は前に言及するべきだった、それが自由!)

Python、FlaskアプリケーションでMongodbを使用してHooshを使用するためのパターンは見つかりませんでした。

小さなヘロク、Pythonアプリケーションで全文検索を処理する方法に関する詳細情報を提供できますか？

解決

だから私はそれを試したことはありませんが、 http://tenderlove.github.com/texticle/ スペース制限内に収まる場合、ネイティブPGSQLフルテキスト検索を使用できることを暗示しているようです。 Hooshの問題は、あなたがディスク空間とHerokuルール内でのその持続性の問題に遭遇することです。

もう1つのことは、DEVドキュメントを介して提案されているように、ADD ONSを使用することです。http://devcenter.heroku.com/articles/full-text-search

パターンについては、基本的にフルテキスト検索を実行し、レコードのデータ/IDを取り戻し、フルテキスト結果に基づいて完全なデータセットをデータストア（Mongo）に照会する必要があります。それは手動のプロセスですが、あまりにも奇妙なことはありません。検索で完全なレコードが必要ない場合、通常、重要なデータをフルテキスト情報で刻むことで逃げることができますが、それにより、フルテキストインデックスのサイズが増加します。

他のヒント

Pysolr あなたの問題を解決します。

Apache Solrの使用を検討しましたか？フリーテキスト検索エンジンにとって最良のソリューションであると思います。無料でオープンソースです。

Pythonのsolrを使用するには、お勧めします mysolr 図書館。 Pysolrよりも非常に高速で使いやすいです（いくつかの統計が表示されますここ)

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow