一种集成深度神经网络和正则表达式的基因变异命名实体识别算法
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.7644/j.issn.1674-9960.2018.11.015

一种集成深度神经网络和正则表达式的基因变异命名实体识别算法

引用
目的 基因变异命名实体的自动化正确识别是从生物医学文献中挖掘基因-变异-疾病关系知识的重要基础.该文提出一种以深度神经网络为主、结合维特比解码和正则表达式的组合算法,用于识别基因变异命名实体.方法 受单词分布式表示的启发,提出一种深度分词策略,即以字母的大小写、数字和特殊符号将单词分开来捕捉变异名称中各部分的结构信息,其中最小的分词单位定义为token;使用GloVe训练深度分词的token向量,一个单词的全部token向量用于训练该单词的词向量.以句子的词向量序列为输入,利用一个双向长短期记忆网络(Bi-LSTM)学习变异名称的一般形式并捕捉上下文信息,后接一个全联接层以提高拟合能力,得到词的标签概率序列作为初步输出;随后采用维特比算法对初步输出进行优化,最后增加正则表达式匹配的结果完成识别.结果 该算法经在NCBI tmVar语料库上训练和测试,取得了91.59%的F1值,高于目前国际上已公开报道的识别系统.结论 该算法避免了复杂的人工特征工程并表现出优越的性能,可用于快速定位生物医学文本中的变异实体,为进一步的关系抽取研究打下基础.

基因变异、命名实体识别、深度神经网络(计算机)、单词的表征向量

42

Q754(分子遗传学)

国家重点研发计划资助项目2016YFC0901900

2019-05-17(万方平台首次上网日期,不代表论文的发表时间)

共5页

872-876

相关文献
评论
暂无封面信息
查看本期封面目录

军事医学

1674-9960

11-5950/R

42

2018,42(11)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn