我正在努力找到一个解决方案(最好是dbaas),我可以依赖于存储和查询约300米的数据(大约100GB)。

所讨论的数据很多。还有一个“描述”列,我想执行全文搜索。还有几个用于过滤的“类别”列。我还想以多种方式过滤/订购搜索结果(10个不同的索引)。

由于数据非常非规范,因此不需要执行复杂的连接。这些数据大量更新:每天都更换了大约50米的记录。

我先用DynamoDB尝试,但它只能支持最多5个索引,并且无法以合理的速度进行全文搜索。我还考虑了谷歌的BigQuery,但它专为“仅附加”数据而设计。我现在正在考虑红移,但我不确定如何处理这么大的日常更新。

任何建议都将得到理解!

有帮助吗?

解决方案

我最终将数据存储在DynamoDB中并与Redshift进行日常同步。我尝试了在4个节点群集中的600M样本数据的闪光灯,它非常快速地运行。这正是我需要的。

许可以下: CC-BY-SA归因
不隶属于 dba.stackexchange
scroll top