哪个免费数据库系统最好存储,并计算/分析大型文本比较,数据库可以从中进行有用的统计? [关闭]

StackOverflow https://stackoverflow.com/questions/202715

  •  03-07-2019
  •  | 
  •  

我必须创建可以比较数千个大文本(相互之间)的脚本。我想知道MySQL是否是最好的解决方案。有没有其他免费的数据库系统我可以用来做简单的 - 但是处理器耗时的计算?

请把我扔进你的知识库!

编辑:文档的性质 - 500-7000个字符文档, - >比较文件,如果文本与其他文件(抄袭)和统计数据匹配 - >使用不错的设置找到的任何句子的%匹配,我想设置其他字符串可能不同的字符数仍然被视为匹配...

技术应该是基于服务器的,我对数据库更感兴趣,然后我会选择适当的语言来编写脚本。

更多规格:数据库的大小必须无限制。

有帮助吗?

解决方案

你应该考虑使用Lucene。它允许您存储大量文本并快速查询它们。具有良好的相关性匹配。

其他提示

您没有提到您将使用的技术;文本条目的大小或比较的性质。但是,我已经创建了 h2数据库,非常出色。它是本机java,可以用作内存数据库,这使得设置变得微不足道。

PostgreSql是一个免费的数据库引擎,除了MySQL之外,它具有良好的可扩展性和广泛使用。

Sql Server Express

我会推荐MySQL。它有很多内置的字符串处理功能。

因为您没有指定,为什么不 SQL Server 2008 Express Edition

与兄弟SQL Server 2008的所有搜索功能,唯一的问题是你不能超过4Gb的数据库。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top