面向大规模数据集的并行化Top-k Skyline查询算法

引用

摘要：

随着数据规模的日益庞大，在大规模数据集中帮助用户定位出数据量可控的代表性信息显得越发重要。虽然Top-k Skyline查询能够找到数据集中前k个最具代表性的信息，在获取代表性信息的同时又控制了结果规模，满足了上述要求，但是现有的Top-k Skyline查询在面对大规模数据集时效率较低，并不适用于大规模数据集。为了解决这个问题，将Top-k Skyline查询与并行化处理相结合，提出了一种面向大规模数据集的并行化Top-k Skyline查询算法PTKS（parallel Top-k Skyline），通过充分利用分布式资源，将原有查询进行有效的并行化处理，同时设计了基于用户偏好的用于缩减结果数据量的筛选规则，满足用户需求。在真实数据集上进行了相关实验，并与现有方法进行了对比，结果表明PTKS在大规模数据集上的查询效率更具有优势，能很好地适用于大规模数据集。

关键词：大规模数据集、Top-k Skyline、代表性信息、并行化处理、筛选规则

分类号：TP311.13(计算技术、计算机技术)

资助基金：The National Natural Science Foundation of China under Grant Nos.60973002,61170003;the National High Technology Research and Development Program of China under Grant No.2012AA011002国家高技术研究发展计划863计划;the MOE-CMCC Research Fund

在线出版日期：2015-08-28（万方平台首次上网日期，不代表论文的发表时间）

页数：共9页

页码：897-905

英文信息展示

期刊专题