データベースが使用可能な統計を作成する大規模なテキスト比較を保存し、計算/分析するのに最適な無料のデータベースシステムはどれですか？ [閉まっている]

質問

数千の大きなテキストを（相互に）比較するスクリプトを作成しました。そして、MySQLがこれに最適なソリューションかどうか疑問に思っています。シンプルですが、プロセッサ時間を消費するコンピューティングを行うために使用できる他の無料のデータベースシステムはありますか？

あなたの知識のプールに私を放り込んでください！

編集：文書の性質-500〜7000文字の文書、-＆gt;テキストが他のドキュメント（盗作）と統計に一致する場合にドキュメントを比較する-＆gt;このような素敵な設定で見つかった任意の文の％一致他の文字列が異なる可能性がある文字数を設定して、一致と見なされるようにします。

テクノロジーはサーバーベースである必要があり、DBに興味があり、スクリプトを作成するのに適切な言語を選択します。

詳細な仕様：DBのサイズは無制限でなければなりません。

解決

Luceneの使用を検討する必要があります。大量のテキストを保存し、それらを非常に高速にクエリできます。関連性のマッチングも良好です。

他のヒント

使用する技術については言及しません。テキストエントリのサイズまたは比較の性質。ただし、 h2データベースが優れていることを確認しました。これはネイティブjavaであり、セットアップを簡単にするインメモリデータベースとして使用できます。

PostgreSqlは無料のデータベースエンジンであり、MySQL以外にも拡張性が高く、広く使用されています。

Sql Server Express

MySQLをお勧めします。組み込みの文字列処理関数がたくさんあります。

指定しないのはなぜですか？ SQL Server 2008 Express Edition ？

SQL Server 2008に搭載されているすべての検索機能は、データベースの4Gbを超えることができないという唯一の問題を抱えています。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow