データベースが使用可能な統計を作成する大規模なテキスト比較を保存し、計算/分析するのに最適な無料のデータベースシステムはどれですか? [閉まっている]

StackOverflow https://stackoverflow.com/questions/202715

  •  03-07-2019
  •  | 
  •  

質問

数千の大きなテキストを(相互に)比較するスクリプトを作成しました。そして、MySQLがこれに最適なソリューションかどうか疑問に思っています。シンプルですが、プロセッサ時間を消費するコンピューティングを行うために使用できる他の無料のデータベースシステムはありますか?

あなたの知識のプールに私を放り込んでください!

編集:文書の性質-500〜7000文字の文書、->テキストが他のドキュメント(盗作)と統計に一致する場合にドキュメントを比較する->このような素敵な設定で見つかった任意の文の%一致他の文字列が異なる可能性がある文字数を設定して、一致と見なされるようにします。

テクノロジーはサーバーベースである必要があり、DBに興味があり、スクリプトを作成するのに適切な言語を選択します。

詳細な仕様:DBのサイズは無制限でなければなりません。

役に立ちましたか?

解決

Luceneの使用を検討する必要があります。大量のテキストを保存し、それらを非常に高速にクエリできます。関連性のマッチングも良好です。

他のヒント

使用する技術については言及しません。テキストエントリのサイズまたは比較の性質。ただし、 h2データベースが優れていることを確認しました。これはネイティブjavaであり、セットアップを簡単にするインメモリデータベースとして使用できます。

PostgreSqlは無料のデータベースエンジンであり、MySQL以外にも拡張性が高く、広く使用されています。

Sql Server Express

MySQLをお勧めします。組み込みの文字列処理関数がたくさんあります。

指定しないのはなぜですか? SQL Server 2008 Express Edition

SQL Server 2008に搭載されているすべての検索機能は、データベースの4Gbを超えることができないという唯一の問題を抱えています。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top