面向科技学术会议的命名实体识别研究
针对通用领域的命名实体识别算法难以充分挖掘到科技学术会议论文数据中语义信息的问题,提出一种结合关键词–字符长短期记忆网络和注意力机制的科技学术会议命名实体识别算法.首先对论文数据集中的关键词特征进行预训练,获得词汇层面的潜在语义信息,将其与字符级别的语义信息融合,解决错误的词汇边界影响识别准确率的问题.然后,将双向长短期记忆网络和注意力机制输出的向量进行融合,同时考虑上下文和全局信息.最后利用条件随机场进行实体的识别.实验表明,所提出的算法在不同数据集上都取得了较好的识别效果,和对比算法相比,准确率、召回率、F1指数均有一定程度的提升.
命名实体识别;长短期记忆网络;注意力机制;字词融合;精准画像;自然语言处理;信息抽取;预训练模型
17
TP391(计算技术、计算机技术)
国家重点研发计划;国家自然科学基金;国家自然科学基金;广西科技重大专项
2022-02-17(万方平台首次上网日期,不代表论文的发表时间)
共9页
50-58