基于混合注意力机制的中文机器阅读理解

引用

摘要：

预训练语言模型在机器阅读理解领域具有较好表现,但相比于英文机器阅读理解,基于预训练语言模型的阅读理解模型在处理中文文本时表现较差,只能学习文本的浅层语义匹配信息.为了提高模型对中文文本的理解能力,提出一种基于混合注意力机制的阅读理解模型.该模型在编码层使用预训练模型得到序列表示,并经过BiLSTM处理进一步加深上下文交互,再通过由两种变体自注意力组成的混合注意力层处理,旨在学习深层语义表示,以加深对文本语义信息的理解,而融合层结合多重融合机制获取多层次的表示,使得输出的序列携带更加丰富的信息,最终使用双层BiLSTM处理输入输出层得到答案位置.在CMRC2018数据集上的实验结果表明,与复现的基线模型相比,该模型的EM值和F1值分别提升了2.05和0.465个百分点,能够学习到文本的深层语义信息,有效改进预训练语言模型.

关键词：中文机器阅读理解、注意力机制、融合机制、预训练模型、RoBERTa模型

所属期刊栏目：48

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金;国家自然科学基金

在线出版日期：2022-10-20（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：67-72,80

英文信息展示

期刊专题