我正在进入一个项目,以进行意见挖掘(数据挖掘 - > Web挖掘 - >意见挖掘),以获得所包含的单词的语义取向。我们将使用一名爬行者来获得页面意见。现在的问题是,我应该使用哪种类型的数据库(OO,关系,Hierachycal等),最好在此类项目中使用。我知道这是一个特定的问题,我不期望每个人都会回答,但至少有人已经做到了,这会有所帮助。

问候!

有帮助吗?

解决方案

如果您需要大规模和响应迅速的东西,则可能需要去Google的 笨拙 或那种性质的东西。在原型级别上,我相信您可以使用传统的关系数据库,但是在某些时候,您会击中性能墙。看 酿酒帽定理.

其他提示

根据我在这种情况下的经验,关系数据库可以很好地为您的目的服务。在存储网络内容部分时,您需要格外小心 - 无论您是否要使用数据库存储它,还是将其存储在文件系统中所能执行的任务中。斑点特别需要额外的注意,并且会增加您的维护工作。

同样,基于项目的性质,您肯定会使用许多已经内置的组件等。其中许多已经支持/易于扩展以使用关系DB作为数据存储。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top