10.19678/j.issn.1000-3428.0066222
基于深度生成模型的聚合查询区间估计方法
目前大多数近似查询方法都是用一个估计值来回答查询,这种点估计的方法虽然简单但是会存在误差.区间估计方法需要在大量样本上完成计算,会造成较高的查询时延,导致在实际中难以广泛应用.以模型驱动的近似查询技术虽在效率上有一定优势,但其查询结果缺乏可靠性保障.为此,提出一种融合数据抽样和机器学习算法的近似查询方法,通过深度生成模型提高查询效率,用区间估计代替点估计来回答查询,即通过多个样本的查询结果来生成一个相对可靠的区间结果.首先利用改进的生成对抗网络模型学习数据分布,在不访问数据集的情况下快速生成多个样本,然后利用大规模并行处理架构来分配计算任务,完成样本生成和查询执行的过程,最后将查询结果返回给用户.实验结果表明,该方法得出的聚合查询区间估计结果的归一化置信区间覆盖率(NCIC)达到85%以上,在聚合函数为COUNT且选择性低于0.03的查询实验中,针对ROAD、PM2.5这2个数据集,该方法的NCIC较随机抽样方法分别提高了13.9%和14.8%,虽然其查询时延相较基准方法有所增加,但是也可满足常规应用要求.
近似查询、生成模型、并行计算、区间估计、抽样
49
TP391(计算技术、计算机技术)
国家自然科学基金62061136006
2023-11-16(万方平台首次上网日期,不代表论文的发表时间)
共10页
284-292,301