基于高维稀疏数据的k-分桶高效skyline查询算法
针对高维数据的Skyline查询处理已经逐渐成为研究的热点,当前主要采用降维方法和k-分桶 skyline 查询算法,但这些算法实现是基于数据对象是完整且精确的假设前提下,但在实际应用中面临的高维数据对象(特别是采集的网络数据)往往是不完整的。桶算法是现有的针对不完整数据的有效算法,但是桶数目随着维度增高而指数级增长,造成桶存储空间严重浪费,同时Skyline查询效率也随分桶数目增加而降低。因此本文针对高维稀疏数据,为了节省存储空间和优化Skyline查询集合,提出了高维稀疏k-分桶的概念,提供了高效的k-分桶 skyline 查询算法。该算法能够有效地控制分桶数目,采用特定的桶填充策略减少候选skyline集合的数目。经过实验验证,k-分桶skyline查询算法特别适用于大规模的高维稀疏数据,稀疏程度越高,算法的优势越明显。
高维、稀疏、skyline查询、k-分桶
TP311(计算技术、计算机技术)
教育部博士点基金20102302120054;国家“九七三”重点基础研究发展规划项目基金2012CB316200;国家自然科学基金61003046,61033015,61133002;RSE-NSFC交流项目61111130189;中央高校基本科研业务费转向资金HIT.NSRIF.2013064
2014-01-16(万方平台首次上网日期,不代表论文的发表时间)
共15页
41-55