データベースが使用可能な統計を作成する大規模なテキスト比較を保存し、計算/分析するのに最適な無料のデータベースシステムはどれですか? [閉まっている]
-
03-07-2019 - |
質問
数千の大きなテキストを(相互に)比較するスクリプトを作成しました。そして、MySQLがこれに最適なソリューションかどうか疑問に思っています。シンプルですが、プロセッサ時間を消費するコンピューティングを行うために使用できる他の無料のデータベースシステムはありますか?
あなたの知識のプールに私を放り込んでください!
編集:文書の性質-500〜7000文字の文書、->テキストが他のドキュメント(盗作)と統計に一致する場合にドキュメントを比較する->このような素敵な設定で見つかった任意の文の%一致他の文字列が異なる可能性がある文字数を設定して、一致と見なされるようにします。
テクノロジーはサーバーベースである必要があり、DBに興味があり、スクリプトを作成するのに適切な言語を選択します。
詳細な仕様:DBのサイズは無制限でなければなりません。
解決
Luceneの使用を検討する必要があります。大量のテキストを保存し、それらを非常に高速にクエリできます。関連性のマッチングも良好です。
他のヒント
使用する技術については言及しません。テキストエントリのサイズまたは比較の性質。ただし、 h2データベースが優れていることを確認しました。これはネイティブjavaであり、セットアップを簡単にするインメモリデータベースとして使用できます。
PostgreSqlは無料のデータベースエンジンであり、MySQL以外にも拡張性が高く、広く使用されています。
Sql Server Express
MySQLをお勧めします。組み込みの文字列処理関数がたくさんあります。
指定しないのはなぜですか? SQL Server 2008 Express Edition ?
SQL Server 2008に搭載されているすべての検索機能は、データベースの4Gbを超えることができないという唯一の問題を抱えています。