10.3969/j.issn.1000-5641.2018.05.005
分布式数据库系统中的并行分组聚合实现
伴随着新型互联网应用中对数据统计、分析需求的增大,分组、聚合已经成为数据分析应用中出现频率最多的请求之一.本文就类OLAP(on-line transaction processing)应用中常见的Aggregation、GroupBy原理进行了分析.针对一般事务型数据库采用排序分组的缺点,提出了两种Hash分组聚合的具体实现方案,并提出一种利用统计信息动态决策Hash桶数、Hash分组聚合方案的策略.根据分布式数据库多副本的特点,本文又提出了一种Hash分组聚合节点级的并行方案.最后,在开源数据库OceanBase进行了具体的实现.通过实验证明,本文提出的利用统计信息动态决策Hash分组聚合方案相比排序分组具有极大的效率提升.
OceanBase、GroupBy、Hash、数据分布
TP392(计算技术、计算机技术)
上海市青年科技英才扬帆计划17YF1427800
2018-11-21(万方平台首次上网日期,不代表论文的发表时间)
共11页
56-66