GDLIN:一种利用梯度下降的学习索引

引用

摘要：

在大数据时代,数据访问速度是衡量大规模存储系统性能的一个重要指标,而索引是用于提升数据库系统中数据存取性能的主要技术之一.近几年,使用机器学习模型代替B+树等传统索引,拟合数据分布规律,将数据的间接查找优化为函数直接计算的学习索引(Learned Index,LI)被提出,LI提高了查询的速度,减少了索引空间开销.但是LI的拟合误差较大,不支持插入等修改性操作.文中提出了一种利用梯度下降算法拟合数据的学习索引模型GDLIN(A Learned Index By Gradient Descent).GDLIN利用梯度下降算法更好地拟合数据,减少拟合误差,缩短本地查找的时间;同时递归调用数据拟合算法,充分利用键的分布规律,构建上层结构,避免索引结构随着数据量而增大.另外,GDLIN利用链表解决LI不支持数据插入的问题.实验结果表明,GDLIN在无新数据插入的情况下,吞吐量是B+树的2.1倍;在插入操作占比为50％的情况下,是LI的1.08倍.

关键词：学习索引、梯度下降、拟合数据模型、链表

所属期刊栏目：50

分类号：TP391(计算技术、计算机技术)

在线出版日期：2023-09-06（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：527-532

英文信息展示

期刊专题