融合知识的文博领域低资源命名实体识别方法研究

引用

摘要：

文物数据的实体嵌套问题明显,实体边界不唯一,且文博领域已标注数据极度缺乏,导致该领域命名实体识别性能较低.针对这些问题,构建一个可用于文物命名实体识别的数据集 FewRlicsData,提出一种融合知识的文博领域低资源命名实体识别方法 RelicsNER.该方法将类别描述信息的语义知识融入文物文本中,使用基于跨度的方式进行解码,用于改善实体嵌套问题,并采用边界平滑的方式缓解跨度识别模型的过度自信问题.与基线模型相比,该方法在 FewRlicsData 数据集上的 F1 值有所提升,在文博领域命名实体识别任务中取得较好的性能.在公开数据集 OntoNotes 4.0 上的实验结果证明该方法具有较好的泛化性,同时在数据集 OntoNotes 4.0 和 MSRA 上进行小规模数据实验,性能均高于基线模型,说明所提方法适用于低资源场景.

关键词：文博领域、命名实体识别、知识融合、注意力机制

所属期刊栏目：60

分类号：TP391;TP183;F279.246

资助基金：北京市自然科学基金4224090

在线出版日期：2024-02-26（万方平台首次上网日期，不代表论文的发表时间）

页数：共10页

页码：13-22

英文信息展示

期刊专题