题
我正在努力找到一个解决方案(最好是dbaas),我可以依赖于存储和查询约300米的数据(大约100GB)。
所讨论的数据很多。还有一个“描述”列,我想执行全文搜索。还有几个用于过滤的“类别”列。我还想以多种方式过滤/订购搜索结果(10个不同的索引)。
由于数据非常非规范,因此不需要执行复杂的连接。这些数据大量更新:每天都更换了大约50米的记录。
我先用DynamoDB尝试,但它只能支持最多5个索引,并且无法以合理的速度进行全文搜索。我还考虑了谷歌的BigQuery,但它专为“仅附加”数据而设计。我现在正在考虑红移,但我不确定如何处理这么大的日常更新。
任何建议都将得到理解!
解决方案
我最终将数据存储在DynamoDB中并与Redshift进行日常同步。我尝试了在4个节点群集中的600M样本数据的闪光灯,它非常快速地运行。这正是我需要的。
不隶属于 dba.stackexchange