基于文本特征增强的电力命名实体识别
针对电力领域语料规模小、实体嵌套、实体缩写等特点,提出基于文本特征增强的实体识别方法.首先,通过预设词库和低粒度分词的方式,在合理利用中文单词蕴含的语义信息的同时,降低分词传递误差的影响.其次,设计词级双向门控循环单元学习中文单词构造特征,融合词性和词长特征后,与单词向量拼接成为单词增强向量.然后,基于双向门控循环单元-注意力机制-条件随机场完成实体识别模型的构建和训练.在此基础上,采用电力领域语料库进行验证,F1分数为87.02%,证实了电力命名实体识别效果.
电力实体识别、低粒度分词、单词构造特征、词级双向门控循环单元
46
TP391;TP183;TH17
国家重点研发计划2017YFB1001800
2022-11-11(万方平台首次上网日期,不代表论文的发表时间)
共9页
134-142