10.7644/j.issn.1674-9960.2018.11.015
一种集成深度神经网络和正则表达式的基因变异命名实体识别算法
目的 基因变异命名实体的自动化正确识别是从生物医学文献中挖掘基因-变异-疾病关系知识的重要基础.该文提出一种以深度神经网络为主、结合维特比解码和正则表达式的组合算法,用于识别基因变异命名实体.方法 受单词分布式表示的启发,提出一种深度分词策略,即以字母的大小写、数字和特殊符号将单词分开来捕捉变异名称中各部分的结构信息,其中最小的分词单位定义为token;使用GloVe训练深度分词的token向量,一个单词的全部token向量用于训练该单词的词向量.以句子的词向量序列为输入,利用一个双向长短期记忆网络(Bi-LSTM)学习变异名称的一般形式并捕捉上下文信息,后接一个全联接层以提高拟合能力,得到词的标签概率序列作为初步输出;随后采用维特比算法对初步输出进行优化,最后增加正则表达式匹配的结果完成识别.结果 该算法经在NCBI tmVar语料库上训练和测试,取得了91.59%的F1值,高于目前国际上已公开报道的识别系统.结论 该算法避免了复杂的人工特征工程并表现出优越的性能,可用于快速定位生物医学文本中的变异实体,为进一步的关系抽取研究打下基础.
基因变异、命名实体识别、深度神经网络(计算机)、单词的表征向量
42
Q754(分子遗传学)
国家重点研发计划资助项目2016YFC0901900
2019-05-17(万方平台首次上网日期,不代表论文的发表时间)
共5页
872-876