基于RoBERTa-ND的中文实词辨析

引用

摘要：

在机器阅读理解任务中,由于中文实词的组合性和隐喻性,且缺乏有关中文实词辨析的数据集,因此传统方法对中文实词的理解程度和辨析能力仍然有限.为此,构建了一个大规模(600k)的中文实词辨析数据集(Chinese notional word discrimination cloze data set,CND).在数据集中,一句话中的一个实词被替换成了空白占位符,需要从提供的两个候选实词中选择正确答案.设计了一个基线模型RoBERTa-ND(RoBERTa-based notional word discrimination model)来对候选词进行选择.模型首先利用预训练语言模型提取语境中的语义信息.其次,融合候选实词语义并通过分类任务计算候选词得分.最后,通过增强模型对位置及方向信息的感知,进一步加强了模型的中文实词的辨析能力.实验表明,该模型在CND上准确率达到90.21％,战胜了 DUMA(87.59％),GNN-QA(84.23％)等主流的完形填空模型.该工作填补了中文隐喻语义理解研究的空白,可以在提高中文对话机器人认知能力等方向开发更多实用价值.数据集 CND 及 RoBERTa-ND 代码均己开源:https://github.com/2572926348/CND-Large-scale-Chinese-National-word-discrimination-dataset.

关键词：隐喻语义理解、中文实词辨析、机器阅读理解

所属期刊栏目：32

分类号：TP391;S;G237.5

资助基金：国家自然科学基金;中国科学院自动化研究所复杂系统管理与控制国家重点实验室开放课题

在线出版日期：2023-05-15（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：157-163

英文信息展示

期刊专题