稠密向量实体检索模型的二值化提速压缩
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.16451/j.cnki.issn1003-6059.202301005

稠密向量实体检索模型的二值化提速压缩

引用
在实体检索任务中,为了从大规模实体库中高效筛选与查询相关的候选实体,可使用稠密向量检索模型.然而在现有的稠密向量检索模型中,由于实体向量维度较高,导致实时计算效率较低、存储空间较大.文中通过实验发现这些实体向量存在大量的冗余信息:一方面,绝大多数实体向量分布在互不相同的象限里;另一方面,语义相近的实体所在的象限也更近.因此,文中提出二值化的实体检索方法,用于压缩实体向量,加速相似度计算.具体而言,方法利用符号函数(sign),二值化压缩高维稠密的浮点向量,并通过汉明距离加快检索.从理论上分析文中方法保证检索性能的原因.通过定性、定量的分析实验验证理论的正确性,并给出基于随机升维旋转的二值检索性能改善方法.

实体检索、嵌入式表示、稠密向量检索、近似近邻检索、乘积量化

36

TP391(计算技术、计算机技术)

国家自然科学基金;国家自然科学基金;中国科学院青年创新促进会项目;中国科学院青年创新促进会项目;中国科学技术协会青年人才托举工程项目;中国科学院计算技术研究所创新项目

2023-03-02(万方平台首次上网日期,不代表论文的发表时间)

共10页

60-69

相关文献
评论
暂无封面信息
查看本期封面目录

模式识别与人工智能

1003-6059

34-1089/TP

36

2023,36(1)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn