10.19678/j.issn.1000-3428.0064584
基于字词融合与对抗训练的行业人物实体识别
行业人物命名实体识别旨在从行业人物语料中抽取出有效的实体信息,是深度挖掘行业人物信息资源的基础性和关键性任务.由于主流的命名实体识别模型未充分利用词信息特征,导致在对具有特色的行业人物实体进行识别时语义、实体边界识别不准确.提出一种基于字词融合与对抗训练的行业人物实体识别模型.利用RoBERTa-wwm-ext预训练模型提取句子的字特征,并融合词典构造出句子的词特征.在字词融合的向量表示上添加扰动生成对抗样本,将融合向量表示与对抗样本作为训练数据输入双向长短期记忆神经网络(BiLSTM)学习上下文信息,并通过条件随机场(CRF)推理最优的序列标注结果.根据行业人物文本特点设计命名实体标注方案,构建数据集进行实验验证.实验结果表明,该模型在测试集上的精确率、召回率、F1值分别达到92.94%、94.35%、93.64%,相较于BERT-BiLSTM-CRF模型分别提升3.68、1.24、2.39个百分点.
命名实体识别、行业人物、字词融合、对抗训练、预训练模型
49
TP18(自动化基础理论)
北京市档案局科研项目2022-12
2023-05-22(万方平台首次上网日期,不代表论文的发表时间)
共7页
56-62