10.3778/j.issn.1673-9418.2203129
融合ALBERT与规则的小麦病虫害命名实体识别
小麦病虫害中文命名实体识别是构建该领域知识图谱的关键步骤,针对小麦病虫害领域训练数据匮乏、实体结构复杂、实体类型多样及实体分布不均匀等问题,在充分挖掘隐含知识的前提下,采用了两种数据增广方法扩充句子语义信息,构建了小麦病虫害实体识别语料库WpdCNER及其领域词典WpdDict,并在领域专家的指导下定义了16类实体;同时提出了一种基于规则修正的中文命名实体识别模型WPD-RA,该模型基于轻量级BERT+双向长短期记忆网络+条件随机场(ALBERT+BiLSTM+CRF)进行实体识别,并在识别后定义具体规则校准实体边界.融合规则后的ALBERT+BiLSTM+CRF模型取得了最好的识别结果,准确率为94.72%,召回率为95.23%,F1值为94.97%,相比不加规则的识别结果,其准确率、召回率、F1值分别增加了1.71个百分点、0.34个百分点、1.03个百分点.实验结果表明,该方法能有效识别小麦病虫害领域命名实体,识别性能优于其他模型,为食品安全、生物等其他领域命名实体识别提供了一种可借鉴的思路.
小麦病虫害、数据增广、命名实体识别(NER)、ALBERT、规则修正
17
TP391(计算技术、计算机技术)
河南省现代农业产业技术体系项目;国家重点研发计划
2023-06-12(万方平台首次上网日期,不代表论文的发表时间)
共10页
1395-1404