命名实体识别技术在"数字敦煌"中的应用研究
命名实体识别是自然语言处理基础任务之一.针对"数字敦煌"项目应用命名实体识别技术存在的实体边界难以确定等问题,通过构建小规模敦煌石窟专有名词数据集,对基于BERT-BiLSTM-CRF的命名实体识别基本方法,和基于Multi-digraph的词汇增强方法进行了实验对比,结果表明基本方法已具备较高的识别准确率,而基于词汇增强的方法对未登录词识别效果提升显著.最后将训练得到的模型应用于"数字敦煌"资源库命名实体识别任务,证明了方法的有效性.
命名实体识别、BERT、LSTM、词汇增强、数字敦煌
K854.3(文物考古)
甘肃省文物保护科学和技术研究课题;甘肃省重点人才项目;敦煌研究院院级科研课题
2022-06-22(万方平台首次上网日期,不代表论文的发表时间)
共10页
149-158