融合语义及边界信息的中文电子病历命名实体识别
中文电子病历数据专业性强,语法结构复杂,用于自然语言处理(NLP)的命名实体识别(NER)难度大.为了从电子病历数据中精确识别出医疗实体,提出了一种融合语义及边界信息的命名实体识别算法.首先,利用卷积神经网络(CNN)结构提取汉字图形信息,并与五笔特征拼接来丰富汉字的语义信息;然后,利用FLAT模型中的Lattice将医学词典作为字符潜在词组匹配文本信息;最后,将融入语义信息的Lattice模型用于中文电子病历命名实体识别.实验结果表明,该方法在Yidu-S4K数据集上的识别性能超过现有多种算法,且在Resume数据集上F1值可达到96.06%.
中文电子病历、FLAT、医学字典、命名实体识别、自然语言处理
51
TP391.1(计算技术、计算机技术)
重庆市科技局项目;重庆市科技局项目;重庆市教委科技项目;重庆市教委科技项目;重庆市研究生科研创新项目;教育部人文社会科学研究项目
2022-07-19(万方平台首次上网日期,不代表论文的发表时间)
共7页
565-571