基于深度生成模型的聚合查询区间估计方法

引用

摘要：

目前大多数近似查询方法都是用一个估计值来回答查询,这种点估计的方法虽然简单但是会存在误差.区间估计方法需要在大量样本上完成计算,会造成较高的查询时延,导致在实际中难以广泛应用.以模型驱动的近似查询技术虽在效率上有一定优势,但其查询结果缺乏可靠性保障.为此,提出一种融合数据抽样和机器学习算法的近似查询方法,通过深度生成模型提高查询效率,用区间估计代替点估计来回答查询,即通过多个样本的查询结果来生成一个相对可靠的区间结果.首先利用改进的生成对抗网络模型学习数据分布,在不访问数据集的情况下快速生成多个样本,然后利用大规模并行处理架构来分配计算任务,完成样本生成和查询执行的过程,最后将查询结果返回给用户.实验结果表明,该方法得出的聚合查询区间估计结果的归一化置信区间覆盖率(NCIC)达到85%以上,在聚合函数为COUNT且选择性低于0.03的查询实验中,针对ROAD、PM2.5这2个数据集,该方法的NCIC较随机抽样方法分别提高了13.9%和14.8%,虽然其查询时延相较基准方法有所增加,但是也可满足常规应用要求.

关键词：近似查询、生成模型、并行计算、区间估计、抽样

所属期刊栏目：49

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金62061136006

在线出版日期：2023-11-16（万方平台首次上网日期，不代表论文的发表时间）

页数：共10页

页码：284-292,301

英文信息展示

期刊专题