10.16526/j.cnki.11-4762/tp.2018.08.053
MapReduce框架下一种负载均衡的Top-k连接查询算法
针对传统Top-k连接查询算法在处理海量数据时的时效问题,提出一种基于MapReduce框架的负载均衡的并行Top-k连接查询算法(P-TKJ);使用直方图形式来存储数据,有助于提高CPU的利用率;同时融入了提前终止策略和磁盘数据的选择性访问,以便提高对HDFS数据访问的性能;另外,融入了数据过滤和基于最长处理时间优先(LPT)算法的负载均衡策略来减少和均衡Reduce任务,以此设计出高效的并行Top-k连接算法;一个集群实验结果表明,该方法能够有效缩短算法的执行时间.
Top-k连接查询、MapReduce框架、数据过滤、负载均衡、执行时间
26
TP311(计算技术、计算机技术)
国家自然科学基金61672002;北京市长城学者项目CIT&TCD20170322
2018-09-13(万方平台首次上网日期,不代表论文的发表时间)
共5页
238-242