基于RoBERTa-ND的中文实词辨析
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.15888/j.cnki.csa.009099

基于RoBERTa-ND的中文实词辨析

引用
在机器阅读理解任务中,由于中文实词的组合性和隐喻性,且缺乏有关中文实词辨析的数据集,因此传统方法对中文实词的理解程度和辨析能力仍然有限.为此,构建了一个大规模(600k)的中文实词辨析数据集(Chinese notional word discrimination cloze data set,CND).在数据集中,一句话中的一个实词被替换成了空白占位符,需要从提供的两个候选实词中选择正确答案.设计了一个基线模型RoBERTa-ND(RoBERTa-based notional word discrimination model)来对候选词进行选择.模型首先利用预训练语言模型提取语境中的语义信息.其次,融合候选实词语义并通过分类任务计算候选词得分.最后,通过增强模型对位置及方向信息的感知,进一步加强了模型的中文实词的辨析能力.实验表明,该模型在CND上准确率达到90.21%,战胜了 DUMA(87.59%),GNN-QA(84.23%)等主流的完形填空模型.该工作填补了中文隐喻语义理解研究的空白,可以在提高中文对话机器人认知能力等方向开发更多实用价值.数据集 CND 及 RoBERTa-ND 代码均己开源:https://github.com/2572926348/CND-Large-scale-Chinese-National-word-discrimination-dataset.

隐喻语义理解、中文实词辨析、机器阅读理解

32

TP391;S;G237.5

国家自然科学基金;中国科学院自动化研究所复杂系统管理与控制国家重点实验室开放课题

2023-05-15(万方平台首次上网日期,不代表论文的发表时间)

共7页

157-163

相关文献
评论
暂无封面信息
查看本期封面目录

计算机系统应用

1003-3254

11-2854/TP

32

2023,32(5)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn