健壮且自适应的学习型近似查询处理方法研究

引用

摘要：

由于在大规模数据集上执行精确查询耗时较长,因此近似查询处理(AQP)技术常被用于在线分析处理,目的是以较短的交互延迟返回查询结果,并尽可能地降低查询误差.现有的学习型AQP方法与底层数据解耦,将I/O密集型计算转化为CPU密集型计算,但是由于计算资源的限制,该类方法通常基于随机的数据样本进行模型训练,此类训练数据会引起稀有群组缺失问题,导致模型预测准确性不高.针对上述问题,提出一种基于分层样本学习的混合型和积网络模型,并基于该模型设计一种AQP框架.分层样本能够有效避免稀有群组缺失现象,基于该样本训练的模型预测准确性大幅提升.此外,针对数据动态更新的情况,提出一种模型自适应更新策略,使得模型能够及时检测数据偏移现象并自适应地执行更新.实验结果表明,与基于抽样和基于机器学习的AQP方法相比,该模型在真实数据集和合成数据集上的平均相对误差分别约降低18.3%和2.2%,在数据动态更新的场景下,其准确性和查询时延均呈现出良好的稳定性.

关键词：近似查询处理、和积网络、分层抽样、数据偏移、自适应更新

所属期刊栏目：50

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金62072113

在线出版日期：2024-01-19（万方平台首次上网日期，不代表论文的发表时间）

页数：共9页

页码：30-38

英文信息展示

期刊专题