10.19678/j.issn.1000-3428.0052626
分布式环境下时态大数据的连接操作研究
目前处理时态大数据连接操作多数运用分布式系统, 但现有的分布式系统尚不能支持原生的时态连接查询, 无法满足时态大数据低延迟和高吞吐量的处理需求.为此, 提出一个基于Spark的二级索引内存解决方案.运用全局索引进行分布式分区的剪枝, 使用局部时态索引进行分区内查询, 提高数据检索效率.针对时态数据设计分区方法, 以对全局剪枝进行优化.基于真实和合成数据集的实验结果表明, 与基准方案相比, 该方案可明显提高时态连接操作的处理效率.
时态大数据、分布式内存计算、时态连接、二级索引、分区方法、Spark框架
45
TP391(计算技术、计算机技术)
国家自然科学基金U1636210,61729202;广东省科技计划项目2015A030401057,2016B030307002
2019-05-31(万方平台首次上网日期,不代表论文的发表时间)
共7页
20-25,31