10.11772/j.issn.1001-9081.2022030480
面向稠密检索的伪相关反馈方法
伪相关反馈(PRF)机制是一种自动化的查询扩展(QE)技术,它利用原始查询和初次检索中前N篇文档蕴含的信息构建更加准确的查询,从而进一步提高信息检索系统的性能.但是,现有的面向稠密检索的PRF方法由于对文本的截断处理容易造成语义信息的缺失,而且在检索阶段的空间复杂度较高.针对上述问题,提出了一种基于段落级粒度且适用于长文本稠密检索的PRF方法Dense-PRF.首先,通过计算语义距离从初次检索的前N篇文档中获得相关段落的向量;其次,对相关段落向量进行平均池化以得到QE项向量;然后,按照权重结合原始查询向量和QE项向量构建新的查询向量;最后,根据新的查询向量得到最终检索结果.在Robust04和WT2G两个经典长文本测试集上将Dense-PRF与基线模型进行了对比实验,相较于模型RepBERT+BM25,Dense-PRF在前20篇文档的准确率和归一化折现累计效益(NDCG)指标上分别提升了1.66、1.32个百分点和2.30、1.91个百分点.实验结果表明Dense-PRF能有效缓解查询与文档词汇不匹配的问题,并提升检索精度.
伪相关反馈、查询扩展、信息检索、稠密检索、长文本
43
TP391(计算技术、计算机技术)
湖北省教育厅人文社会科学研究项目18Q028
2023-04-25(万方平台首次上网日期,不代表论文的发表时间)
共7页
1036-1042