10.3969/j.issn.1672-9722.2021.12.009
基于BERT的Base与Large版的领域命名实体识别研究
为了解决西藏畜牧业领域相关文本的实体识别难度大的问题,构建了一种结合BERT预训练语言模型的神经网络模型,该模型将语料输入BERT中获取字向量抽象特征,然后再传入双向长短时记忆网络(BILSTM)中编码以获取上下文相关的语义信息,最后通过条件随机场(CRF)进行解码提取出相应的实体.结合领域特点自建西藏畜牧业领域语料库,并设计不同类型实体的标注方法及命名规范,将BERT的Base和Large版本分别与BILSTM-CRF结合进行命名实体识别实验.实验结果表明:总体上Base和Large版在F1值上分别收敛至92.37%和92.78%,但是在自定义的动物、动物疾病以及病虫害三个类别上未训练词的识别方面,Large版的F1值比Base版平均高6.25%,该模型在西藏畜牧业领域命名实体任务中表现出色并且BERT的Large版对长语句中的未训练词识别效果更好.
命名实体识别;BERT模型;BERT-BILSTM-CRF;西藏畜牧业领域
49
O141.4(数理逻辑、数学基础)
国家自然科学基金;西藏自治区自然科学基金;西藏自治区科技计划项目
2022-01-07(万方平台首次上网日期,不代表论文的发表时间)
共7页
2455-2461