10.11772/j.issn.1001-9081.2021071209
基于知识库实体增强BERT模型的中文命名实体识别
针对预训练模型BERT存在词汇信息缺乏的问题,在半监督实体增强最小均方差预训练模型的基础上提出了一种基于知识库实体增强BERT模型的中文命名实体识别模型OpenKG+Entity Enhanced BERT+CRF.首先,从中文通用百科知识库CN-DBPedia中下载文档并用Jieba中文分词抽取实体来扩充实体词典;然后,将词典中的实体嵌入到BERT中进行预训练,将训练得到的词向量输入到双向长短期记忆网络(BiLSTM)中提取特征;最后,经过条件随机场(CRF)修正后输出结果.在CLUENER 2020和MSRA数据集上进行模型验证,将所提模型分别与Entity Enhanced BERT Pre-training、BERT+BiLSTM、ERNIE和BiLSTM+CRF模型进行对比实验.实验结果表明,该模型的F1值在两个数据集上比四个对比模型分别提高了1.63个百分点和1.1个百分点、3.93个百分点和5.35个百分点、2.42个百分点和4.63个百分点以及6.79个百分点和7.55个百分点.可见,所提模型对命名实体识别的综合效果得到有效提升,F1值均优于对比模型.
命名实体识别、知识库、实体词典、预训练模型、双向长短期记忆网络
42
TP391.1(计算技术、计算机技术)
国家自然科学基金;广州市大数据与智能教育重点实验室资助项目
2022-09-29(万方平台首次上网日期,不代表论文的发表时间)
共6页
2680-2685