融入语言模型和注意力机制的临床电子病历命名实体识别
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.11896/jsjkx.190200259

融入语言模型和注意力机制的临床电子病历命名实体识别

引用
临床电子病历命名实体识别(Clinical Named Entity Recognition,CNER)的主要任务是对给定的一组电子病历文档进行识别并抽取出与医学临床相关的命名实体,然后将它们归类到预先定义好的类别中,如疾病、症状、检查等实体.命名实体识别任务通常被看作一个序列标注问题.目前,深度学习方法已经被广泛应用于该任务并取得了非常好的效果.但其中大部分方法未能有效利用大量的未标注数据;并且目前使用的特征相对简单,未能深入捕捉病历文本自身的特征.针对这两个问题,文中提出一种融入语言模型和注意力机制的深度学习方法.该方法首先从未标注的临床医疗数据中训练字符向量和语言模型,然后利用标注数据来训练标注模型.具体地,将句子的向量表示送入一个双向门控循环网络(Bidirectional Gated Recurrent Units,BiGRU)和预训练好的语言模型,并将两部分的输出进行拼接.之后,将前一层的拼接向量输入另一个BiGRU和多头注意力(Multi-head Attention)模块.最后,将BiGRU和多头注意力模块的输出进行拼接并输入条件随机场(Conditional Randoin Field,CRF),预测全局最优的标签序列.通过利用语言模型特征和多头注意力机制,该方法在CCKS-2017 Shared Task2标准数据集上取得了良好的结果(F1值为91.34%).

多头注意力、语言模型、临床医学命名实体识别、深度神经网络、循环控制单元

47

TP391(计算技术、计算机技术)

国家重点研发计划2018YFC0910500

2020-04-10(万方平台首次上网日期,不代表论文的发表时间)

共6页

211-216

相关文献
评论
暂无封面信息
查看本期封面目录

计算机科学

1002-137X

50-1075/TP

47

2020,47(3)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn