10.3969/j.issn.0258-8021.2018.04.009
基于多特征融合的线性内核SVM法挖掘生物实体关联
提高挖掘生物医学文献中的实体关联算法的性能,对开拓研究新思路有重要启示作用.提出一种改进特征的新线性内核SVM关联挖掘方法,以糖尿病相关文献摘要为研究内容,总结归纳出5种实体关联挖掘特征:实体特征、实体对特征、依赖图特征、解析树特征和名词短语约束特征,其中实体对和名词短语约束是所提出的新特征,并使用Huber损失函数作为SVM分类器的线性内核进行计算,挖掘预测疾病、基因和药物实体之间的关联.计算得到10种糖尿病相关病症和23种基因有173种关联,13种糖尿病相关病症和26种药物存在79种关联,18种基因与17种药物组成了159种关联,构建出疾病-基因、疾病-药物、基因-药物和8种糖尿病相关疾病基因药物的关联网络,共计619种实体关联,同时预测出27种新实体关联对,最后使用ROC曲线验证3种关联(0.804、0.847和0.742).结果表明,所提出算法与CoPub(0.710)、PubGene(0.609)、FBK-irst(0.547,0.800)和WBI(0.510,0.759)所用算法相比,最高精确度提升超过约5%(0.847与0.800),最低提升超过约20%(0.742与0.510),性能更优,为下一步在生物医学大数据中的应用打下良好基础.
特征、支持向量机(SVM)、关联挖掘、糖尿病、ROC曲线
37
R318(医用一般科学)
国家自然科学基金31570952,81471702;北京自然科学基金3122010
2018-09-30(万方平台首次上网日期,不代表论文的发表时间)
共10页
451-460