基于对抗式数据增强的深度文本检索重排序

引用

摘要：

在信息检索领域的排序任务中, 神经网络排序模型已经得到广泛使用. 神经网络排序模型对于数据的质量要求极高, 但是, 信息检索数据集通常含有较多噪音, 不能精确得到与查询不相关的文档. 为了训练一个高性能的神经网络排序模型, 获得高质量的负样本, 则至关重要. 借鉴现有方法doc2query的思想, 本文提出了深度、端到端的模型AQGM, 通过学习不匹配查询文档对, 生成与文档不相关、原始查询相似的对抗查询, 增加了查询的多样性,增强了负样本的质量. 本文利用真实样本和AQGM模型生成的样本, 训练基于BERT的深度排序模型, 实验表明,与基线模型BERT-base对比, 本文的方法在MSMARCO和TrecQA数据集上, MRR指标分别提升了0.3％和3.2％.

关键词：神经网络排序模型、稠密表征、信息检索、对抗式数据增强、生成模型

所属期刊栏目：30

分类号：TP391.41;D915.33;TP183

在线出版日期：2021-07-26（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：204-209

英文信息展示

期刊专题